Nghiên cứu và đánh giá các phương pháp giảm nhiễu trong tín hiệu tiếng nói

Header Page of 126 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG Công trình ñược hoàn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: TS PHẠM VĂN TUẤN PHẠM VĂN PHÁT Phản biện 1: TS NGÔ VĂN SỸ NGHIÊN CỨU VÀ ĐÁNH GIÁ CÁC PHƯƠNG PHÁP GIẢM NHIỄU TRONG TÍN HIỆU TIẾNG NÓI Chuyên ngành: KỸ THUẬT ĐIỆN TỬ Mã số: 60.52.70 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - 2011 Footer Page of 126 Phản biện 2: TS NGUYỄN HOÀNG CẨM Luận văn ñã ñược bảo vệ Hội ñồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật ñiện tử họp Đại học Đà Nẵng vào ngày 25 tháng năm 2011 * Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin- Học liệu, Đại học Đà Nẵng - Trung tâm học liệu, Đại học Đà Nẵng Header Page of 126 MỞ ĐẦU Tính cấp thiết ñề tài - Tìm hiểu mô hình nhiễu ñặc ñiểm loại nhiễu tín hiệu tiếng nói Dựa mô hình nhiễu cộng, phân tích chế xếp chồng nhiễu lên tín hiệu miền thời gian, miền Fourier Hầu hết chất lượng tiếng nói hệ thống thông tin liên lạc Nghiên cứu phát triển thuật toán ước lượng nhiễu ñều bị suy giảm ảnh hưởng nhiễu Nhiễu xuất - ñầu vào hệ thống, kênh truyền thiết bị ñầu cuối kỹ thuật hiệu chỉnh hàm nén nhiễu xử lý nâng cao chất Tùy theo ñặc ñiểm loại nhiễu cường ñộ nhiễu khác lượng tiếng nói Các thuật toán nén nhiễu ñược ñề cập gồm: thuật mà ảnh hưởng lên chất lượng tiếng nói khác toán trừ phổ phi tuyến, thuật toán sử dụng lọc Wiener thuật Loại bỏ nhiễu khỏi tín hiệu tiếng nói công việc không ñơn toán Log-MMSE (logarithm minimum mean squared error) Các kỹ giản, việc xử lý loại bỏ nhiễu không tốt gây thông tin, làm suy giảm méo dạng tín hiệu tiếng nói Vì vậy, việc nghiên cứu ñưa thuật sử dụng ước lượng cập nhật nhiễu gồm: VAD (Voice activity dectection) ước lượng dùng lọc Percentile phương pháp cải thiện chất lượng tiếng nói ñóng vai trò quan - trọng việc ñảm bảo chất lượng tính trung thực tín hiệu PESQ, WSS(Weighted Spectral Slope), SegSNR(Segment SNR ) tiếng nói hệ thống thông tin liên lạc - Nghiên cứu phương pháp ñánh giá khách quan : CEP, LLR, IS, Thực việc xử lý nén nhiễu ñánh giá khách quan chất Việc giảm nhiễu nhằm nâng cao chất lượng tiếng nói lượng tín hiệu tiếng nói sau xử lý ngôn ngữ lập trình Matlab giải pháp kỹ thuật quan trọng nhằm hỗ trợ cho Xây dựng sở liệu tín hiệu tiếng nói bị tác ñộng loại mảng xử lý tiếng nói khác nhận dạng người nói, nhận dạng tiếng nhiễu khác với SNR khác Triển khai ñánh giá chất nói tự ñộng trợ thính môi trường nhiễu xe hơi, ñám lượng tín hiệu phương pháp ñánh giá khách quan, ñồng thời ñông, xưởng công nghiệp.v.v qua ñó ñánh giá hiệu thuật toán giảm nhiễu Dựa Mục ñích nghiên cứu - Nghiên cứu phát triển thuật toán giảm nhiễu miền Fourier - Nghiên cứu phương pháp ñánh giá khách quan chất lượng tiếng nói Đối tượng phạm vi nghiên cứu - Nghiên cứu thuật toán công cụ ñể xử lý tín hiệu tiếng nói nói chung Footer Page of 126 kết ñánh giá tiến hành phân tích lại thuật toán nhằm hiệu chỉnh ñề xuất giải pháp hiệu Ý nghĩa khoa học thực tiễn ñề tài Thực việc giảm nhiễu tín hiệu tiếng nói trước xử lý yêu cầu thiếu tất hệ thống xử lý tiếng nói nói chung Bên cạnh ñó việc ñánh giá khách quan ñược ñộ méo tín hiệu, qua ñó ñề xuất ñược thuật toán xử lý giảm nhiễu tín hiệu Header Page of 126 tiếng nói hiệu có ý nghĩa khoa học quan trọng mà ñề CHƯƠNG 1: TỔNG QUAN VỀ XỬ LÝ TÍN HIỆU TIẾNG NÓI tài hướng ñến 1.1 Giới thiệu chương 1.2 Tín hiệu tiếng nói Cấu trúc luận văn Chương 1: Tổng quan xử lý tín hiệu tiếng nói Chương ñề cập phương pháp ñược sử dụng việc phân 1.2.1 Tín hiệu 1.2.2 Tín hiệu tiếng nói tích tổng hợp tiếng nói, kỹ thuật mã hóa dự ñoán tuyến tính, Xử lý tiếng nói ñược chia thành mục sau: phương pháp giảm nhiễu tăng cường chất lượng tín hiệu tiếng nói Nhận dạng tiếng nói Chương 2: Các phương pháp giảm nhiễu tín hiệu tiếng nói Nhận dạng người nói Chương tập trung nghiên cứu thuật toán giảm nhiễu(Noise Tăng cường chất lượng tiếng nói Reductions) cải thiện chất lượng tiếng nói(Speeech Enhancement) Các thuật toán nâng cao chất lượng tiếng nói ñược sử dụng nhằm Gồm thuật toán trừ phổ(Spectral–Subtraction), lọc Wiener loại bỏ tối ña ảnh hưởng nhiễu qua ñó cho phép cải thiện Filtering(Wiener Filtering), Log-MMSE vấn ñề ước luợng, cập nhật nhiễu nâng cao chất lượng tín hiệu Các thuật toán nén nhiễu chia thành nhóm sau: Chương 3: Đánh giá khách quan chất lượng tín hiệu tiếng nói - Thuật toán trừ phổ Nội dung chương trình bày phương pháp ñánh giá khách - Thuật toán dựa mô hình thống kê quan: - Thuật toán không gian Segmental SNR(SegSNR), Itakura-Saito(IS), Weighted Spectral Slope(WSS), Perceptual Evaluation of Speech Quality Mã hóa tiếng nói (PESQ), Log-Likelihood Ratio(LLR) ñể ñánh giá chất lượng tín hiệu Tổng hợp tiếng nói sau xử lý Phân tích giọng nói Chương 4: Giảm nhiễu ñánh giá chất lượng tín hiệu tiếng nói sau xử lý Xây dựng biểu ñồ thực thuật toán giảm nhiễu mô Matlab, sau ñó ñánh giá kết thu ñược phương pháp ñánh giá khách quan Định vị nguồn âm 1.2.3 Phân loại tiếng nói Tiếng nói ñược chia thành loại sau: Âm hữu Âm vô Âm bật Footer Page of 126 Header Page of 126 1.3 Các ñặc tính tín hiệu tiếng nói 1.3.1 Tần số lấy mẫu Tần số lấy mẫu số lần lấy mẫu ñược tính ñơn vị thời dụng ñể quan sát phân tích tín hiệu, xác ñịnh ñịnh tính ñặc trưng tín hiệu Quan sát ảnh phổ ta thu nhận ñược thông tin phổ công suất, phân bố tần số, formant.v.v 1.4 Cơ sở xử lý tín hiệu số gian, thông thường giây Tần số lấy mẫu ký hiệu Fs 1.4.1 Các hệ thống tín hiệu thời gian rời rạc 1.3.2 Tần số phổ tần 1.4.2 Phép biến ñổi Fourier tín hiệu rời rạc DTFT Tần số bản: Giá trị nghịch ñảo T0 F0 = 1/T0 ñược gọi tần số tiếng nói F0 thay ñổi theo ñiệu ảnh hưởng ñến ngữ ñiệu câu nói Biến ñổi Z (ZT): Biến ñổi Fourier (Fourier Transform- FT): 1.5 Phân tích tiếng nói 1.5.1 Mô hình phân tích tiếng nói 1.3.3 Formant Formant dải tần số ñược tăng cường tượng cộng hưởng Mô hình tổng quát cho việc phân tích tiếng nói ñược trình bày hình 1.13 ống dẫn thanh, ñặc trưng cho âm sắc nguyên âm 1.3.4 Biểu diễn tín hiệu tiếng nói Có phương pháp biểu diễn tín hiệu tiếng nói là: - Biểu diễn dạng sóng theo thời gian - Biểu diễn miền tần số - Biểu diễn không gian chiều (ảnh phổ- spectrogram) 1.3.4.1 Dạng sóng theo thời gian 1.3.4.2 Phổ tín hiệu tiếng nói Dải tần số tín hiệu âm nằm khoảng tần số từ 0Hz ñến 20KHz, nhiên phần lớn công công suất nằm dải tần số từ 0,3KHz ñến 3,4KHz 1.3.4.3 Ảnh phổ (Spectrogram) Tín hiệu tiếng nói ñược biểu diễn không gian ba chiều gọi ảnh phổ Ảnh phổ có vai trò quan trọng công cụ hữa Footer Page of 126 Hình 1.13: Mô hình tổng quát việc xử lý tiếng nói 1.5.2 Phân tích tiếng nói ngắn hạn Header Page of 126 10 1.5.3 Phân tích tiếng nói miền thời gian Năng lượng trung bình Độ lớn biên ñộ trung bình 1.5.4 Phân tích tiếng nói miền tần số 1.6 Phương pháp phân tích mã hóa dự ñoán tuyến tính (LPCLinear Predictive Coding) CHƯƠNG 2: CÁC PHƯƠNG PHÁP GIẢM NHIỄU TÍN HIỆU TIẾNG NÓI 2.1 Giới thiệu chương 2.2 Lý thuyết nhiễu 2.2.1 Nguồn nhiễu 2.2.2 Phân loại nhiễu 2.2.3 Nhiễu mức tín hiệu tiếng nói môi trường khác Phương pháp phân tích dự ñoán tuyến tính phương pháp phân tích tín hiệu tiếng nói mạnh ñược sử dụng 2.3 Các thuật toán tăng cường chất lượng tiếng nói phổ biến Điểm quan trọng phương pháp nằm khả Các thuật toán nén nhiễu chia thành nhóm sau: cung cấp ước lượng xác tham số tín hiệu − Thuật toán trừ phổ tiếng nói khả thực tính toán tương ñối nhanh − Thuật toán dựa mô hình thống kê − Thuật toán không gian 1.7 Tăng cường chất lượng tiếng nói Các thuật toán nén nhiễu chia thành nhóm sau: Thuật toán trừ phổ 2.4 Thuật toán Spectral Subtraction 2.4.1 Giới thiệu chung Spectral – subtraction thuật toán ñược ñề xuất sớm Thuật toán không gian 1.8 Kết luận chương thuật toán ñược sử dụng ñể giảm nhiễu tín hiệu Nó thừa nhận có mặt nhiễu, phổ tiếng nói ñược ước lượng cách trừ ñi phổ nhiễu với phổ tiếng nói ñã bị nhiễu y(n) Y(ω) DFT X (ω) Noise stimate Hình 2.3: Sơ ñồ khối minh họa kỹ thuật trừ phổ Footer Page of 126 ∧ ∧ Subtraction processing IDFT x (n) Header Page of 126 11 2.4.2 Thuật toán trừ phổ biên ñộ 2.4.3 Thuật toán trừ phổ công suất 2.4.4 Nhược ñiểm phương pháp trừ phổ 2.4.5 Trừ phổ phi tuyến 12 Chương 3: ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI 2.5 Nâng cao chất lượng tiếng nói sử dụng lọc Wiener 3.1 Giới thiệu chương 3.2 Đánh giá chủ quan chất lượng âm sau xử lý 3.2.1 Phương pháp ñánh giá tương ñối Trong phương pháp tín hiệu cần ñánh giá, người nghe 2.5.1 Giới thiệu chung Bộ lọc Wiener Norbert Wiener nghiên cứu ñề xuất năm 1949, ban ñầu lọc Wiener ñược sử dụng ñể xử lý miền thời gian liên tục Lý thuyết Wiener ñược mở rộng ñể xử lý miền thời gian rời rạc, ứng dụng phổ biến lọc nghe cặp tín hiệu chọn mẫu tín hiệu thích Phương pháp phức tạp tốn thời gian kết hợp lượng lớn cường ñộ mức nhiễu 3.2.1.1 Phương pháp DCR 3.2.1.2 Phương pháp CCR Wiener xử lý tín hiệu số 3.2.2 Phương pháp ñánh giá tuyệt ñối 2.5.2 Xây dựng lọc Wiener 2.5.3 Áp dụng lọc Wiener nâng cao chất lượng tiếng nói 2.6 Nâng cao chất lượng tiếng nói cách ước lượng MMSE 2.7 Nâng cao chất lượng tiếng nói thuật toán ước lượngLog-MMSE Phương pháp ñánh giá khách quan 3.3 Đánh giá chất lượng khách quan phương pháp ñánh giá chất lượng dựa phép ño thuộc tính tín hiệu 3.3.1 Đo tỷ số tín hiệu nhiễu khung Ước lượng tối ưu biên ñộ phổ MMSE dựa sai số bình Đo SNR khung miền thời gian phương trung bình biên ñộ thật biên ñộ ước lượng, phương phương pháp ñánh giá mặt toán ñơn giản Để phương pháp dễ thực mặt toán học, nhiên không mang ý pháp có hiệu ñiều quan trọng tín hiệu gốc tín hiệu ñã nghĩa chủ quan Vì vậy, người ta ñưa phương pháp dựa sai số qua xử lý phải miền thời gian ñộ lệch pha phải bình phương trung bình log phổ biên ñộ theo công thức sau: ñược hiệu chỉnh xác SNRseg ñược xác ñịnh sau { E (log( X k ) − log( Xˆ k )) } 2.8 Ước lượng cập nhật nhiễu 2.8.1 Voice activity detection(VAD) 2.8.2 Bộ lọc percentile 2.9 Kết luận chương Footer Page of 126 Nm + N −1 (2.26) x ( n) 10 M −1 ∑ n = Nm SNRseg = ∑ lg M m=0 ∑ Nm+ N −1 ( x(n) − xˆ (n)) (3.3) n = Nm Trong ñó x(n) : tín hiệu gốc (tín hiệu sạch) xˆ (n) : tín hiệu ñã ñược tăng cường N: chiều dài khung (thường ñược chọn từ 15-20ms) Header Page of 126 13 14 M: số khung tín hiệu W (k ) = Đo khoảng cách phổ dựa LPC 3.3.2 K max K loc max K max + C max − C x (k ) K loc max + C loc max − C x (k ) Phép ño WSS tính cho khung tín hiệu thoại: LPC (Linear Prediction Coefficient)s :Hệ số dự ñoán tuyến tính, (3.12) gồm phương pháp phổ biến LLR (Log Likelihood Ratio) , IS (Itakura Saito) ño theo khoảng cách CEP (Cepstrum Distance) (3.11) 3.3.3 Perceptual Evaluation of Speech Quanlity (PESQ)Measure Năm 2000, ITU-T chọn Perceptual Evaluation of Speech Quality 3.3.2.1 Phương pháp ño LLR (PESQ) ñể thay cho Perceptual speech quality measure (PSQM) a xˆT R x a xˆ d LLR (a x , a x ) = lg T a x Rx a x (3.6) Trong tất objective measure PESQ phương pháp a = [1,−a x (1),− a x ( 2), ,− a x ( p )] :hệ T x phức tạp ñược khuyến nghị ITU-T ñể nhận biết chất số LPC tín lượng tiếng nói băng tần hẹp 3,2kHz a xˆT = [1,−a xˆ (1),− a xˆ ( 2), , − a xˆ ( p )] :hệ số tín hiệu ñã PESQ ñược tính công thức: hiệu PESQ = a0 − a1d sym − a2 d asym ñược tăng cường chất lượng Với a0 = 4.5 , a1 = 0.1 , a2 = 0.0309 Rx (p+1)*(p+1)ma trận tự tương quan(Toeplitz) tín hiệu 3.4 Kết luận chương Đánh giá khách quan phương pháp ñánh giá chất lượng dựa phép ño thuộc tính tín hiệu bao gồm ño tỷ số tín hiệu 3.3.2.2 Phương pháp ño IS nhiễu khung SegSNR, ño khoảng cách phổ sử dụng hệ Đo IS ñược xác ñịnh sau[14] G G aT R a d IS (a x , a x ) = x xTˆ x xˆ + lg xˆ G xˆ a x Rx a x  Gx   −  Gx Gxˆ hệ số khuếch ñại tín hiệu tín hiệu tăng cường 3.3.2.3 Phương pháp ño Weighted Spectral Slope Phương pháp ñánh giá ñược tính dốc phổ ñầu tiên ñược tìm thấy dải phổ Xét Cx(k) phổ dải tới hạn tín hiệu C xˆ (k ) tín hiệu tăng cường, xét ñơn vị dB Footer Page of 126 số dự ñoán tuyến tính LPC (LLR ,IS), ño khoảng cách dựa ñộ (3.8) dốc phổ (WSS), PESQ phương pháp ñánh giá khách quan phức tạp ñáng tín cậy có ñộ tương quan cao so với ñánh giá chủ quan Header Page of 126 15 Chương : THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ CHẤT LƯỢNG TÍN HIỆU SAU XỬ LÝ 16 4.4 Kết thực giảm nhiễu nhận xét 4.4.1 Giảm nhiễu sử dụng thuật toán trừ phổ 4.1 Giới thiệu chương 4.2 Quy trình thực khả phần tín hiệu hữa ích ñược xem nhiễu 4.3 Thực xử lý giảm nhiễu tiếng nói bị nén mạnh, ñặc biệt thành phần tính hiệu có công suất phổ 4.3.1 Xây dựng sở liệu Cơ sở liệu ban ñầu 30 câu thoại ñược ghi âm phòng thí nghiệm theo chuẩn IEEE tín hiệu thoại Mỗi câu trung Phương pháp trừ phổ cho kết nén nhiễu tốt nhỏ âm gió, âm nối Kết tín hiệu sau tăng cường bị phá hủy lớn, tính dễ nghe tín hiệu 4.4.2 Giảm nhiễu sử dụng lọc Wiener bình khoảng 2s Các tín hiệu thoại ñó sau ñó ñã ñược cộng nhiễu vào Phương pháp nén nhiễu dùng lọc Wiener cho kết nén với mức SNR 0dB, 5dB, 10dB, 15dB Có năm loại nhiễu ñược chọn nhiễu tốt, nhiên thành phần có công suất phổ nhiễu lớn ñể nghiên cứu ñề tài nhiễu ô tô(car noise), nhiễu ñám tồn So với thuật toán trừ phổ, thuật toán WienerFilter cho ñông(babble), nhiễu trắng(white), nhiễu từ tàu hỏa(train) nhiễu kết tốt hơn, tín hiệu hữu ích có công suất phổ thấp ñược giao thông ñường phố(street) Đề tài thực hai phương pháp ước giữ lại, tín hiệu sau xử lý bị phá hủy lượng nhiễu VAD lọc Percentile Ba thuật toán nén nhiễu ñã 4.4.3 Giảm nhiễu sử dụng thuật toán LogMMSE ñược nghiên cứu công bố thuật toán trừ phổ phi tuyến NSS(Non Thực ñánh giá khách quan chất lượng tiếng nói sau Linear Spectral Subtraction), lọc Wiener(WienerFiltering) 4.5 LogMMSE(Logrithm Minium Mean-Squared Error) Trên sở 30 xử lý thuật toán giảm nhiễu câu mẫu tạo 600 mẫu âm ñược cộng nhiễu, mẫu ñược xử lý qua thuật toán nén nhiễu khác NSS, 4.5.1 Cơ sở sử dụng cho ñánh giá bao gồm: WIENERFILTER LogMMSE, kết thu ñược sở liệu 3600 mẫu tiếng nói ñã ñược xử lý nén nhiễu 4.3.2 Xác ñịnh tham số ñầu vào cho thuật toán 4.3.2.1 Hàm ñộ lợi(Gain Function) Cơ sở liệu sử dụng cho trình ñánh giá - 30 câu thoại tín hiệu thoại sạch(clean) ñược ghi âm phòng thí nghiệm theo chuẩn IEEE - 600 câu thoại ñược cộng nguồn nhiễu khác CAR, 4.3.2.2 Thuật toán VAD BABLE, WHITE, TRAIN STREET bốn mức SNR khác 4.3.2.3 Thuật toán Percentile filtering 0dB, 5dB, 10dB 15dB Footer Page of 126 Header Page of 126 - 17 18 3600 câu thoại ñã ñược xử lý nén nhiễu thuật toán nén nhiễu khác NSS, WIENERFILTER LogMMSE với hai phương pháp ước lượng nhiễu VAD Percentile Filter Quá trình thực thuật toán ñánh giá khách quan 4.5.2 Các ñánh giá khách quan ñược lựa chọn ñể thực ñánh giá chất lượng tín hiệu tiếng nói gồm: - Itakura-Saito (IS) - Log Likelihood Ratio (LLR) - Segmental Signal-to-Noise Ratio(SegSNR) - Cepstrum Distance(CEP) - Perceptual Evaluation of Speech Quanlity(PESQ) - Weighted Spectral Slope (WSS) Hình 4.10: Biểu ñồ ñánh giá khách quan LLR thuật toán tăng cường chất lượng tiếng nói với loại nhiễu trắng(White) 4.3.2.1 Kết ñánh giá khách quan tham số CEP-PESQ-WSS SegSNR với phương pháp ước lượng nhiễu VAD LLR với nhiễu tiếng ồn ñám ñông(Bable) − Từ kết ñánh giá ta thấy hầu hết mẫu âm thoại môi trường nhiễu tiếng ồn ôtô cho số LLR thấp dải biến thiên hẹp từ 0.3dB ñến 0.8dB với loại nhiễu ñám ñông nhiễu trắng số biến thiên rộng từ 0.2dB ñến 1.5dB − Trong số thuật toán sử dụng ñể tăng cường chất lượng tiếng nói số LLR lọc nhiễu dùng thuật toán LogMMSE với phương pháp ước lượng dùng lọc Percentile cho kết tốt hẳn thuật toán khác Bên cạnh ñó với hai phương pháp ước lượng ước lượng nhiều dùng VAD cho kết không khả quan ước lượng Percentile Hình 4.17: Biểu ñồ ñánh giá khách quan số CEP, PESQ, WSS, SNRseg thuật toán tăng cường chất lượng tiếng nói sử dụng ước lượng VAD với loại nhiễu ñường phố Footer Page of 126 Header Page 10 of 126 19 20 4.3.2.2 Kết ñánh giá khách quan tham số CEP-PESQ-WSS − SegSNR với phương pháp ước lượng nhiễu dùng lọc Percentile trừ phổ tỏ có ưu ñiểm vượt trội, khả nén khiễu tốt Với mức mức nhiễu lớn(SNR=0dB, 5dB) phương pháp phương pháp dùng lọc Wiener hay LogMMSE 4.3.2.3 Đánh giá hiệu nén nhiễu môi trường nhiễu khác Trong số ñánh giá khách quan, ñánh giá PESQ SegSNR ñược ITUT khuyển cáo có ñộ ổn ñịnh tin cậy cao Hình 4.19: Biểu ñồ ñánh giá khách quan số CEP, PESQ, WSS, SNRseg thuật toán tăng cường chất lượng tiếng nói sử dụng ước lượng Percentile với loại nhiễu ôtô Từ kết ñánh giá rằng: − Các kết sau xử lý nén nhiễu nhìn chung cho số ñánh giá tốt so với chưa xử lý − Các ñánh giá PESQ SegSNR cho thấy số môi trường nhiễu nhiễu ñám ñông, nhiễu tàu hỏa nhiễu ñường phố cho kết xử lý thấp Ngược lại nhiễu trắng cho hiệu xử lý cao Footer Page 10 of 126 Hình 4.23: Biểu ñồ ñánh giá khách quan PESQ môi trường nhiễu khác sử dụng thuật toán nén nhiễu Header Page 11 of 126 21 LogMMSE_Percentilefilter(trên) LogMMSE _VAD(dưới) 22 Hình 4.23 bên kết ñánh giá PESQ sử dụng thuật toán LogMMSE với hai ước lượng tương ứng VAD PercentileFilter Ở hai kết cho thấy thuật toán LogMMSE ñều cho ñáp ứng thấp môi trường nhiễu tàu hỏa giao thông ñường phố Ngược lại với loại nhiễu ôtô nhiễu trắng kết ñạt ñược cao Hình 4.24 bên kết ñánh giá SegSNR năm môi trường nhiễu khác với ba thuật toán LogMMSE, NSS Wiene PercentileFilter Kết cho thấy ñánh giá SegSNR có tính tương ñồng cao so với ñánh giá PESQ Ở ba kết hình 4.25 cho thấy ba thuật toán LogMMSE, NSS Wiener ñều cho ñáp ứng tốt hai môi trường nhiễu ôtô nhiễu trắng, ngược lại cho kết thấp với nhiễu ñám ñông giao thông ñường phố 4.6 Kết luận chương Qua quan sát, phân tích ñánh giá kết ñạt ñược cho số kết nhận xét sau: − Trong số năm môi trường tạo nhiễu ñể nghiên cứu, kết ñánh giá cho thấy nhiễu trắng có phổ nhiễu hẹp, công suất nhiễu ổn ñịnh nên hiệu nén nhiễu cao nhất, ngược lại môi trường khác nhiễu ñám ñông hay nhiễu tiếng ồn giao thông ñược ñộ ổn ñịnh cao, phổ nhiễu biến thiên rộng nên hiệu nén nhiễu không cao − Trong số ñánh giá ñã nghiên cứu, hai ñánh giá khách quan Hình 4.24: Biểu ñồ ñánh giá khách quan SegSNR môi trường nhiễu PESQ SegSNR cho kết tương ñồng tất môi khác sử dụng ước lượng PercentileFilter ứng với ba thuật toán nén trường nhiễu thuật toán nén nhiểu Đây hai số năm nhiễu LogMMSE(trên), NSS(giữa) Wiener(dưới) Footer Page 11 of 126 ñánh giá cho khả tin cậy ñộ ổn ñịnh cao Header Page 12 of 126 − 23 Với thuật toán ước lượng nhiễu VAD, LogMMSE Wiener Scalart cho kết tốt NSS môi trường nhiễu ñám ñông Trong hai phương pháp ước lượng nhiễu dùng Percentilefilter VAD, thuật toán NSS cho kết sau ñó Wiener Scalart LogMMSE Thuật toán nén nhiễu LogMMSE cho kết khả quan số thuật toán ñã nghiên cứu, kết 24 KẾT LUẬN VÀ KIẾN NGHỊ Hầu hết chất lượng tiếng nói hệ thống thông tin liên lạc ñều bị suy giảm ảnh hưởng nhiễu Nhiễu xuất ñầu vào hệ thống, kênh truyền thiết bị ñầu cuối Tùy theo ñặc ñiểm loại nhiễu cường ñộ nhiễu khác cung hoàn toàn tương ñồng với phương pháp ñánh giá chủ mà ảnh hưởng lên chất lượng tiếng nói khác quan việc nghe thử mẫu tín hiệu ñã xử lý Trong tất Loại bỏ nhiễu khỏi tín hiệu tiếng nói công việc phức tạp, môi trường gây nhiễu môi trường nhiễu trắng cho kết nén việc xử lý loại bỏ nhiễu không tốt gây thông tin, làm suy giảm nhiễu tốt phổ nhiễu rộng có ñộ ổn ñịnh cao thuận tiện cho việc cập nhật xử lý − Với phương pháp nén nhiễu, nhiễu ñám ñông, ước lượng nhiễu dùng Percentitlefilter cho kết tốt VAD hầu hết thuật toán SNR tăng dần Ở nhiễu trắng, ước lượng dùng VAD lại cho kết tốt méo dạng tín hiệu tiếng nói Vì vậy, việc nghiên cứu ñưa phương pháp cải thiện chất lượng tiếng nói ñóng vai trò quan trọng việc ñảm bảo chất lượng tính trung thực tín hiệu tiếng nói hệ thống thông tin liên lạc Việc giảm nhiễu nhằm nâng cao chất lượng tiếng nói giải pháp kỹ thuật quan trọng nhằm hỗ trợ cho mảng xử lý tiếng nói khác nhận dạng người nói, nhận dạng tiếng nói tự ñộng trợ thính môi trường nhiễu xe hơi, ñám ñông, xưởng công nghiệp.v.v Đề tài xây dựng giải pháp giảm nhiễu: thuật toán ước lượng nhiễu VAD, lọc Percentile hàm nén nhiễu dựa mức nhiễu ñã ñược ước lượng sử dụng lọc Weiner, LogMMSE thuật toán trừ phổ Đề tài ñã xây dựng sở liệu tín hiệu tiếng nói với 600 mẫu âm thoại ñược cộng nhiễu với mức SNR khác sở loại môi trường gây nhiễu phổ biến Bable, Car, White, mtrain Street Đề tài ñà tiến hành thực thuật toán giảm nhiễu tạo ñược sở liệu lớn với 4230 mẫu âm thoại Footer Page 12 of 126 Header Page 13 of 126 25 Triển khai ñánh giá chất lượng tín hiệu phương pháp ñánh giá khách quan với ñánh giá khác IS, CEP, LLR, WSS, PESQ, SNRseg, ñồng thời qua ñó ñánh giá hiệu thuật toán giảm nhiễu Tóm lại, qua trình thực kết ñánh giá khách quan thu ñược rằng: - Trong số môi trường gây nhiễu khác nhau, nguồn nhiễu trắng cho hiệu nén nhiễu tốt có phổ nhiễu tương ñối hẹp công suất nhiễu ổn ñịnh Các nguồn nghiễu có ñộ biến ñộng lớn, phổ nhiễu rộng nhiễu ñường phố, nhiễu ñám ñông hiệu nén nhiễu thấp - Trong số thuật toán nén nhiễu ñược sử dụng nghiên cứu, thuật toán LogMMSE cho hiệu nén nhiễu cao nhất, chất lượng tín hiệu sau xử lý ñược ñảm bảo, thông tin hữu ích ñược bảo lưu Kết hoàn toàn tương ñồng sau nghe thử mẫu tín hiệu ñã xử lý - Trong phương pháp ước lượng nhiễu, ước lượng dùng lọc Percentile cho kết khả quan sử dụng ước lượng VAD, khả nén nhiễu tốt, tín hiệu sau xử lý bị phá hủy, ñảm bảo tính dễ nghe Phương pháp ước lượng VAD phù hợp với mức nhiễu lớn có ñộ biến thiên chậm Bên cạnh kết ñạt ñược nêu trên, tác giả kiến nghị tiếp tục tìm hiểu, nghiên cứu vấn ñề sau: - Thực ñánh giá chủ quan tìm ñược tương ñồng ñánh giá khách quan so với ñánh giá chủ quan Footer Page 13 of 126 26 - Nghiên cứu giải pháp giảm nhiễu miền Wavelet so sánh với thuật toán xử lý miền phổ - Triển khai thuật toán thiết bị phần cứng chuyên dụng KIT DSP, FPGA ñánh giá lại hiệu toàn hệ thống ... tiếng nói Nhận dạng tiếng nói Chương 2: Các phương pháp giảm nhiễu tín hiệu tiếng nói Nhận dạng người nói Chương tập trung nghiên cứu thuật toán giảm nhiễu( Noise Tăng cường chất lượng tiếng nói. .. Tín hiệu 1.2.2 Tín hiệu tiếng nói tích tổng hợp tiếng nói, kỹ thuật mã hóa dự ñoán tuyến tính, Xử lý tiếng nói ñược chia thành mục sau: phương pháp giảm nhiễu tăng cường chất lượng tín hiệu tiếng. .. nhiễu miền Fourier - Nghiên cứu phương pháp ñánh giá khách quan chất lượng tiếng nói Đối tượng phạm vi nghiên cứu - Nghiên cứu thuật toán công cụ ñể xử lý tín hiệu tiếng nói nói chung Footer Page

Định dạng
Số trang	13
Dung lượng	224,69 KB