Đề tài khoa học và công nghệ cấp cơ sở: Nghiên cứu giải pháp giảm nhiễu phi tuyến trong miền wavelet nhằm nâng cao chất lượng tiếng nói

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề	Nghiên Cứu Giải Pháp Giảm Nhiễu Phi Tuyến Trong Miền Wavelet Nhằm Nâng Cao Chất Lượng Tiếng Nói
Tác giả	ThS. Dương Ngọc Pháp
Trường học	Đại Học Đà Nẵng
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	báo cáo tổng kết
Năm xuất bản	2016
Thành phố	Đà Nẵng

Định dạng
Số trang	68
Dung lượng	2,02 MB

Nội dung

Mục tiêu chính của đề tài là nghiên cứu các phép biến đổi và mô hình nhiễu cộng tác động lên tín hiệu tiếng nói trong miền Wavelet. Nghiên cứu cách xác định ngưỡng và các kỹ thuật nén nhiễu trong miền Wavelet. Kết quả mô phỏng, đánh giá sẽ so sánh giữa các kỹ thuật giảm nhiễu khác nhau.

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU PHI TUYẾN TRONG MIỀN WAVELET NHẰM NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI Mã số: T2016-07-05 Chủ nhiệm đề tài: ThS Dương Ngọc Pháp Đà Nẵng, 12/2016 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU PHI TUYẾN TRONG MIỀN WAVELET NHẰM NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI Mã số: T2016-07-05 Xác nhận quan chủ trì đề tài Đà Nẵng, 12/2016 Chủ nhiệm đề tài MỤC LỤC MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU DANH MỤC TỪ VIẾT TẮT THÔNG TIN KẾT QUẢ NGHIÊN CỨU .6 MỞ ĐẦU I TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC ĐỀ TÀI TRONG VÀ NGOÀI NƯỚC NGOÀI NƯỚC TRONG NƯỚC .8 II TÍNH CẤP THIẾT CỦA ĐỀ TÀI III MỤC TIÊU CỦA ĐỀ TÀI IV ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ĐỐI TƯỢNG NGHIÊN CỨU .9 PHẠM VI NGHIÊN CỨU V NỘI DUNG NGHIÊN CỨU .9 CHƯƠNG 1:TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI 10 1.1 GIỚI THIỆU CHƯƠNG .10 1.2 TỔNG QUAN VỀ PHÂN TÍCH TÍN HIỆU TIẾNG NĨI 10 1.2.1 Đặc điểm ngơn ngữ học tiếng nói .10 1.2.2 Xử lý tiếng nói 10 1.3 NHIỄU 15 1.4 NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI 17 1.5 CÁC KỸ THUẬT GIẢM NHIỄU 18 1.5.1 Các thuật toán trừ phổ .19 1.5.2 Sử dụng lọc Wiener 19 1.5.3 Hàm nén nhiễu dựa ước lượng MMSE 19 1.6 ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI 20 1.6.1 Phương pháp đánh giá chủ quan 20 1.6.2 Phương pháp đánh giá khách quan 23 1.7 KẾT LUẬN CHƯƠNG 26 CHƯƠNG 2:CÁC PHƯƠNG PHÁP GIẢM NHIỄU TÍN HIỆU TIẾNG NĨI TRONG MIỀN WAVELET 27 2.1 GIỚI THIỆU CHƯƠNG .27 2.2 PHÉP BIẾN ĐỔI WAVELET 27 i MỤC LỤC 2.3 MƠ HÌNH NHIỄU CỘNG TRONG MIỀN WAVELET 29 2.4 KỸ THUẬT CHỌN NGƯỠNG 29 2.5 HÀM NÉN NHIỄU 30 2.6 THUẬT TOÁN GIẢM NHIỄU DÙNG PHƯƠNG PHÁP LỌC WAVELET CĨ TÍNH CẢM QUAN PSWF 32 2.6.1 Ánh xạ ngưỡng giác quan 32 2.6.2 Kỹ thuật lọc percentile thích nghi 33 2.6.3 Trọng số hóa miền thời gian tần số .34 2.6.4 Hàm nén nhiễu thích nghi 35 2.7 KẾT LUẬN CHƯƠNG 36 CHƯƠNG 3:THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ .37 3.1 GIỚI THIỆU CHƯƠNG .37 3.2 CƠ SỞ DỮ LIỆU 37 3.3 KẾT QUẢ ĐÁNH GIÁ VÀ PHÂN TÍCH 38 3.3.1 Kết đánh giá theo phương pháp LLR 39 3.3.2 Đánh giá hiệu nén nhiễu môi trường nhiễu khác 42 3.3.3 Hiệu hàm nén nhiễu theo phương pháp đánh giá khác 46 3.3.4 Kết phương pháp đánh giá cảm quan PESQ cho môi trường nhiễu (Babble, Car, White, Train, Street) 52 3.3.5 Kết đánh giá CEP-PESQ-WSS-SNRseg với thuật toán nén nhiễu .55 3.4 KẾT LUẬN CHƯƠNG 60 KẾT LUẬN 61 KIẾN NGHỊ 61 ii DANH MỤC HÌNH VẼ DANH MỤC HÌNH VẼ Hình 1.1: Dạng sóng tín hiệu âm miền thời gian 11 Hình 1.2: Tín hiệu tiếng nói thu từ hai micro khác [1] 11 Hình 1.3: Tín hiệu tiếng nói từ hai người khác [1] 11 Hình 1.4: Tín hiệu tiếng nói người nói hai thời điểm khác [1] 12 Hình 1.5: Dạng sóng cơng suất phổ tín hiệu tiếng nói theo thời gian 12 Hình 1.6: Đường bao phổ tín hiệu tiếng nói hai người nói khác .13 Hình 1.7: Dạng sóng ảnh phổ tín hiệu tiếng nói: sạch, bị nhiễu tín hiệu tăng cường .13 Hình 1.8: Kỹ thuật phân khung [1] 14 Hình 1.9: a) Biên độ b) Trung bình phổ biên độ nhiễu xe (Car) 15 Hình 1.10: a) Biên độ b) Trung bình phổ biên độ nhiễu đường phố (Street) 16 Hình 1.11: a) Biên độ b) Trung bình phổ biên độ nhiễu nhà hàng (Restaurant) 16 Hình 1.12: Mơ hình nhiễu cộng .17 Hình 1.13: Sơ đồ khối tổng quát thuật toán giảm nhiễu 17 Hình 2.1: Miền phân tích phép biến đổi Wavelet 28 Hình 2.2: Cấu trúc phân chia gói 29 Hình 2.3: Đặc tuyến hàm nén nhiễu ngưỡng cứng miền Wavelet [16] 31 Hình 2.4: Đặc tuyến hàm nén nhiễu ngưỡng mềm miền Wavelet [16] 31 Hình 2.5: Sơ đồ thuật toán PSWF [14] 32 Hình 2.6: Mơ tả cách lấy percentile q để xác định ngưỡng thích nghi cho kênh Wavelet [14] .34 Hình 2.7: Đặc tuyến hàm nén nhiễu thích nghi miền Wavelet [16] 36 Hình 3.1: Đáp ứng tần số lọc IRS 37 Hình 3.2: Kết đánh giá LLR thuật toán tăng cường chất lượng tiếng nói với loại nhiễu tiếng ồn đám đơng (Bable) 39 Hình 3.3: Kết đánh giá LLR thuật tốn tăng cường chất lượng tiếng nói với loại nhiễu tiếng ồn ôtô (Car) .40 Hình 3.4: Kết đánh giá LLR thuật toán tăng cường chất lượng tiếng nói với loại nhiễu trắng (White) 40 Hình 3.5: Kết đánh giá LLR thuật tốn tăng cường chất lượng tiếng nói với loại nhiễu tàu hỏa (Train) 41 Hình 3.6: Kết đánh giá LLR thuật toán tăng cường chất lượng tiếng nói với loại nhiễu đường phố (Street) 41 Hình 3.7: Kết đánh giá hàm nén ngưỡng cứng cho môi trường nhiễu 42 Hình 3.8: Kết đánh giá hàm nén ngưỡng mềm cho môi trường nhiễu 43 Trang DANH MỤC HÌNH VẼ Hình 3.9: Kết đánh giá hàm nén Wavelet Shrinking cho môi trường nhiễu 43 Hình 3.10: Kết đánh giá thuật tốn LogMMSE-PF cho mơi trường nhiễu 44 Hình 3.11: Kết đánh giá thuật toán NSS-PF cho mơi trường nhiễu .44 Hình 3.12: Kết đánh giá thuật tốn MMSE-PF cho mơi trường nhiễu 45 Hình 3.13: Kết đánh giá theo số CEP, PESQ, WSS, SNRseg cho thuật toán HardThreshold-PF 46 Hình 3.14: Kết đánh giá theo số CEP, PESQ, WSS, SNRseg cho thuật toán SoftThreshold-PF .47 Hình 3.15: Kết đánh giá theo số CEP, PESQ, WSS, SNRseg cho thuật toán Shrinking-PF .48 Hình 3.16: Kết đánh giá theo số CEP, PESQ, WSS, SNRseg cho thuật toán LogMMSE-PF 49 Hình 3.17: Kết đánh giá theo số CEP, PESQ, WSS, SNRseg cho thuật toán NSS-PF .50 Hình 3.18: Kết đánh giá theo số CEP, PESQ, WSS, SNRseg cho thuật toán MMSE-PF 51 Hình 3.19: Kết phương pháp đánh giá PESQ thuật tốn tăng cường chất lượng tiếng nói với nhiễu tiếng ồn đám đông 52 Hình 3.20: Kết phương pháp đánh giá PESQ thuật toán tăng cường chất lượng tiếng nói với nhiễu tiếng ồn ơtơ .52 Hình 3.21: Kết phương pháp đánh giá PESQ thuật tốn tăng cường chất lượng tiếng nói với nhiễu trắng 53 Hình 3.22: Kết phương pháp đánh giá PESQ thuật toán tăng cường chất lượng tiếng nói với nhiễu tiếng ồn tàu hỏa .53 Hình 3.23: Kết phương pháp đánh giá PESQ thuật toán tăng cường chất lượng tiếng nói với nhiễu tiếng ồn đường phố 54 Hình 3.24: Kết đánh giá CEP, PESQ, WSS, SNRseg thuật toán tăng cường chất lượng tiếng nói với nhiễu đám đơng 55 Hình 3.25: Kết đánh giá CEP, PESQ, WSS, SNRseg thuật toán tăng cường chất lượng tiếng nói với nhiễu ơtơ 56 Hình 3.26: Kết đánh giá CEP, PESQ, WSS, SNRseg thuật tốn tăng cường chất lượng tiếng nói với nhiễu trắng 57 Hình 3.27: Kết đánh giá CEP, PESQ, WSS, SNRseg thuật toán tăng cường chất lượng tiếng nói với nhiễu tàu hỏa .58 Hình 3.28: Kết đánh giá CEP, PESQ, WSS, SNRseg thuật tốn tăng cường chất lượng tiếng nói với nhiễu đường phố .59 Trang DANH MỤC BẢNG BIỂU DANH MỤC BẢNG BIỂU Bảng 1.1: Đánh giá liên quan đến tất trật tự thuận nghịch xếp tín hiệu cần đánh giá tín hiệu mẫu tất kết hợp tín hiệu mẫu 21 Bảng 1.2: Thang đánh giá DCR 22 Bảng 1.3: Thang đánh giá CCR .22 Bảng 1.4: Thang đánh giá MOS 23 Bảng 2.1: Ánh xạ CWS gói Wavelet 33 Trang DANH MỤC TỪ VIẾT TẮT DANH MỤC TỪ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt Đánh giá theo giá trị ACR Absolute Categories Rating CCR Compison Category Rating Đánh giá cách so sánh CEP Cepstrum Distance Khoảng cách Cepstrum DCR Degradation Category Rating Đánh giá suy giảm chất lượng DFT Discrete Fourier Transform Phép biến đổi Fourier rời rạc DWT Discrete Wavelet Transform Phép biến đổi Wavelet rời rạc FFT Fast Fourier Transform Phép biến đổi Fourier nhanh FRs Frames Số khung Hard-Threshold Ngưỡng cứng HardThr tuyệt đối Phép biến đổi ngược Fourier IDFT Inverse Discrete Fourier Transform IDWT Discrete Wavelet Transform Phép biến đổi ngược Wavelet rời rạc IEEE Institute of Electrical and Electronics Engineers Viện kỹ nghệ Điện Điện tử Intermediate Reference System Hệ thống tham chiếu trung gian International Telecommunications Union-Telecomunication Hiệp hội tiêu chuẩn viễn thông quốc tế IRS ITU-T LLR LogMMSE LPC MMSE Log Likelihood Ratio Logrithm Minium Mean-Squed Error Sai lệch trung bình bình phương tối thiểu-Logarit Linear Predictive Coding Mã hóa dự đốn tuyến tính Minimum Mean Sque Error MOS Mean Opinion Scores MSS Magnitude Spectral Subtraction NOIZEUS rời rạc Sai lệch trung bình bình phương tối thiểu Trừ phổ biên độ Noisy Speech Corpus NSS Non-line Spectral Subtraction Trừ phổ phi tuyến OE Objective Evaluation Đánh giá khách quan PDF Probability Density Function Hàm mật độ xác suất Perceptual Evaluation of Speech Đánh giá cảm quan chất PESQ Trang DANH MỤC TỪ VIẾT TẮT Quality lượng thoại Power Spectral Density Mật độ phổ công suất Perceptual speech quality measure Đo đạc cảm quan chất lượng thoại Power Spectral Subtraction Trừ phổ công suất Perceptually Statistical Wavelet Filter Bộ lọc Wavelet thống kê có tính cảm quan SE Subjective Evaluation Đánh giá chủ quan SE Speech Enhancement Tăng cường tiếng nói Segmental Signal-to-Noise Ratio SNR khung Signal-to-noise ratio Tỷ số tín hiệu nhiễu Soft-Threshold Ngưỡng mềm Spectral Subtraction Phương pháp trừ phổ Short Time Fourier Transform Phép biến đổi Fourier thời gian ngắn TD Time Domain Miền thời gian UT Universal Threshold Ngưỡng toàn cục Thăm dò hoạt động PSD PSQM PSS PSWF SegSNR SNR SoftThr SS STFT VAD Voice Activity Detection tiếng nói Wiener Filter Bộ lọc Wiener WPD Wavelet Packet Decomposition Phân tích gói Wavelet WPR WSS Wavelet Packet Reconstruction Weighted Spectral Slope Khơi phục gói Wavelet Độ dốc phổ trọng số hóa WF Trang THƠNG TIN KẾT QUẢ NGHIÊN CỨU ĐẠI HỌC ĐÀ NẴNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN Độc lập – Tự – Hạnh phúc THÔNG TIN KẾT QUẢ NGHIÊN CỨU Thông tin chung: - Tên đề tài: NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU PHI TUYẾN TRONG - MIỀN WAVELET NHẰM NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI Mã số: T2016-07-05 - Chủ nhiệm: DƯƠNG NGỌC PHÁP - Thành viên tham gia: khơng - Cơ quan chủ trì: Trường Cao đẳng Công nghệ thông tin – Đại học Đà Nẵng Thời gian thực hiện: từ ngày 01/01/2016 đến ngày 31/12/2016 Mục tiêu: - Nghiên cứu phép biến đổi mơ hình nhiễu cộng tác động lên tín hiệu tiếng nói miền Wavelet Nghiên cứu cách xác định ngưỡng kỹ thuật nén nhiễu miền - Wavelet Kết mô phỏng, đánh giá so sánh kỹ thuật giảm nhiễu khác - Tính sáng tạo: - - Tín hiệu tiếng nói biểu diễn miền Wavelet khai thác đầy đủ đặc điểm thời gian tần số cho phép phân tích chi tiết xác đặc điểm vật lý tín hiệu, kỹ thuật nghiên cứu ứng dụng rộng rãi thời gian gần lĩnh vực xử lí tín hiệu (giảm nhiễu, nén, ) Trong đề tài, tác giả nghiên cứu điều chỉnh nhằm tối ưu thơng số thuật tốn giảm nhiễu miền Wavelet, qua đưa đánh giá phân tích để so sánh hiệu giảm nhiễu thuật tốn khác Tóm tắt kết nghiên cứu: - Trình bày tổng quan lĩnh vực xử lí tiếng nói, nâng cao chất lượng tiếng nói tình hình nghiên cứu giải pháp giảm nhiễu Ứng dụng phép biến đổi miền Wavelet để xây dựng thuật tốn giảm nhiễu cho tín hiệu tiếng nói Sử dụng cơng cụ lập trình để thực giảm nhiễu miền Wavelet với kỹ thuật: hàm nén nhiễu ngưỡng cứng (hard-thresholding), hàm nén nhiễu ngưỡng mềm (soft-thresholding) hàm nén nhiễu dùng phương pháp lọc Trang Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ  Thuật tốn nén NSS-PF Hình 3.17: Kết đánh giá theo số CEP, PESQ, WSS, SNRseg cho thuật toán NSS-PF Trang 50 Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ  Thuật tốn nén MMSE-PF Hình 3.18: Kết đánh giá theo số CEP, PESQ, WSS, SNRseg cho thuật toán MMSE-PF Trang 51 Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Kết đánh giá cho thấy thuật toán Shrinking-PF MMSE-PF cho chất lượng xử lý tốt với hầu hết phép đánh giá khác Ở phương pháp đánh giá PESQ cho kết cao với thuật toán nén Shrinking-PF MMSE-PF dải giá trị từ 0.3dB đến 0.8dB Kết xử lý thuật toán tương đồng theo phép đánh giá, đặc biệt phương pháp PESQ SNRseg có mức độ tin cậy cao 3.3.4 Kết phương pháp đánh giá cảm quan PESQ cho môi trường nhiễu (Babble, Car, White, Train, Street)  Nhiễu tiếng ồn đám đông (Babble) -PESQ-babble 3.2 2.8 PESQ 2.6 2.4 2.2 NoisySignal HardThr-PF SoftThr-PF Shrinking-UT-PF LogMMSE-PF NSS-PF MMSE-PF 1.8 1.6 1.4 10 15 SNR Hình 3.19: Kết phương pháp đánh giá PESQ thuật tốn tăng cường chất lượng tiếng nói với nhiễu tiếng ồn đám đông  Nhiễu tiếng ồn ôtô (Car) -PESQ-car 3.2 2.8 PESQ 2.6 2.4 2.2 NoisySignal HardThr-PF SoftThr-PF Shrinking-UT-PF LogMMSE-PF NSS-PF MMSE-PF 1.8 1.6 1.4 10 15 SNR Hình 3.20: Kết phương pháp đánh giá PESQ thuật toán tăng cường chất lượng tiếng nói với nhiễu tiếng ồn ơtơ Trang 52 Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ  Nhiễu trắng (White) -PESQ-white 3.2 2.8 2.6 PESQ 2.4 2.2 NoisySignal HardThr-PF SoftThr-PF Shrinking-UT-PF LogMMSE-PF NSS-PF MMSE-PF 1.8 1.6 1.4 10 15 SNR Hình 3.21: Kết phương pháp đánh giá PESQ thuật tốn tăng cường chất lượng tiếng nói với nhiễu trắng  Nhiễu tiếng ồn tàu hỏa (Train) -PESQ-train 2.8 2.6 PESQ 2.4 2.2 NoisySignal HardThr-PF SoftThr-PF Shrinking-UT-PF LogMMSE-PF NSS-PF MMSE-PF 1.8 1.6 1.4 10 15 SNR Hình 3.22: Kết phương pháp đánh giá PESQ thuật tốn tăng cường chất lượng tiếng nói với nhiễu tiếng ồn tàu hỏa Trang 53 Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ  Nhiễu tiếng ồn đường phố (Street) -PESQ-street 2.8 2.6 PESQ 2.4 2.2 NoisySignal HardThr-PF SoftThr-PF Shrinking-UT-PF LogMMSE-PF NSS-PF MMSE-PF 1.8 1.6 1.4 10 15 SNR Hình 3.23: Kết phương pháp đánh giá PESQ thuật tốn tăng cường chất lượng tiếng nói với nhiễu tiếng ồn đường phố Kết đánh giá theo phương pháp PESQ cho thấy thuật toán cho kết xử lý thấp môi trường nhiễu đám đông nhiễu đường phố, ngược lại mức đáp ứng nhiễu ô tô nhiễu trắng, đặc biệt thuật toán Shrinking-UTPF MMSE-PF mức nhiễu cao (0dB, 5dB) Thuật toán HardThr SoftThr cho khả xử lý chưa cao theo số đánh giá Trang 54 Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ 3.3.5 Kết đánh giá CEP-PESQ-WSS-SNRseg với thuật toán nén nhiễu  Nhiễu tiếng ồn đám đông (Babble) -CEP-babble -PESQ-babble 2.8 2.6 2.4 PESQ CEP 2.2 1.8 1.6 1.4 10 15 20 SNR -WSS-babble 140 WSS 120 100 80 15 20 60 -2 40 -4 20 SNRseg Noisy Signal HardThr-PF SoftThr-PF Shrinking-UT-PF LogMMSE-PF NSS-PF MMSE-PF 15 SNRsegbabble 160 20 10 SNR 10 15 -6 20 SNR 10 SNR Hình 3.24: Kết đánh giá CEP, PESQ, WSS, SNRseg thuật toán tăng cường chất lượng tiếng nói với nhiễu đám đơng Trang 55 Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ  Nhiễu tiếng ồn ôtô (Car) -CEP-car -PESQ-car 3.5 PESQ CEP 2.5 1.5 10 15 20 SNR -WSS-car 15 20 15 20 SNRsegcar Noisy Signal HardThr-PF SoftThr-PF Shrinking-UT-PF LogMMSE-PF NSS-PF MMSE-PF 120 100 80 SNRseg 140 WSS 10 SNR 60 -2 40 20 -4 10 15 -6 20 SNR 10 SNR Hình 3.25: Kết đánh giá CEP, PESQ, WSS, SNRseg thuật toán tăng cường chất lượng tiếng nói với nhiễu ơtơ Trang 56 Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ  Nhiễu trắng (White) -CEP-white -PESQ-white 3.5 8.5 PESQ CEP 7.5 6.5 2.5 1.5 5.5 5 10 15 20 10 SNR SNR -WSS-white SNRsegwhite 15 20 140 120 100 SNRseg WSS 80 Noisy Signal HardThr-PF SoftThr-PF Shrinking-UT-PF LogMMSE-PF NSS-PF MMSE-PF 60 -2 40 20 -4 10 15 -6 20 SNR 10 15 20 SNR Hình 3.26: Kết đánh giá CEP, PESQ, WSS, SNRseg thuật toán tăng cường chất lượng tiếng nói với nhiễu trắng Trang 57 Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ  Nhiễu tàu hỏa (Train) -CEP-train -PESQ-train 2.5 CEP PESQ 1.5 10 15 20 SNR -WSS-train 15 20 15 20 SNRsegtrain Noisy Signal HardThr-PF SoftThr-PF Shrinking-UT-PF LogMMSE-PF NSS-PF MMSE-PF 120 100 80 SNRseg 140 WSS 10 SNR 60 -2 40 20 -4 10 15 -6 20 SNR 10 SNR Hình 3.27: Kết đánh giá CEP, PESQ, WSS, SNRseg thuật toán tăng cường chất lượng tiếng nói với nhiễu tàu hỏa Trang 58 Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ  Nhiễu đường phố (Street) -CEP-street -PESQ-street 2.5 PESQ CEP 1.5 10 15 10 -WSS-street SNRsegstreet Noisy Signal HardThr-PF SoftThr-PF Shrinking-UT-PF LogMMSE-PF NSS-PF MMSE-PF 120 100 80 -6 20 SNR 20 -4 15 15 40 10 20 -2 15 60 SNR 140 20 SNR 160 WSS 20 SNRseg 10 SNR Hình 3.28: Kết đánh giá CEP, PESQ, WSS, SNRseg thuật toán tăng cường chất lượng tiếng nói với nhiễu đường phố Trang 59 Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Từ kết đánh giá nhận thấy: - Các kết sau xử lý nén nhiễu nhìn chung cho số đánh giá tốt so với chưa xử lý Các đánh giá PESQ SegSNR cho số chất lượng tương đối khả quan, môi trường nhiễu xe nhiễu trắng Tuy nhiên với phương pháp đánh giá CEP WSS chất lượng thoại môi trường nhiễu xấu Các phép đánh giá dựa việc phân tích phổ tín hiệu, thuật tốn thực giảm nhiễu mạnh can thiệp vào phổ tín hiệu hữu ích nhiều làm phần tín hiệu mang thơng tin nên số đánh giá thấp thuật toán giảm nhiễu HardThr, SoftThr Kết xử lý với nhiễu đám đông, nhiễu đường phố cho chất lượng so với nhiễu trắng đặc điểm nhiễu có tương quan lớn với tín hiệu tiếng nói - Với mức nhiễu lớn (SNR=0dB, 5dB) phương pháp MMSE-PF tỏ có ưu điểm vượt trội, khả nén khiễu tốt phương pháp lại 3.4 KẾT LUẬN CHƯƠNG Qua quan sát, phân tích đánh giá kết đạt cho số kết nhận xét sau: - Trong số năm môi trường tạo nhiễu để nghiên cứu, kết đánh giá cho thấy nhiễu trắng có cơng suất nhiễu ổn định nên hiệu nén nhiễu cao nhất, ngược lại môi trường khác nhiễu đám đông hay nhiễu tiếng ồn giao thơng khơng có độ ổn định cao, phổ nhiễu biến thiên rộng nên hiệu nén nhiễu không cao - Trong số đánh giá nghiên cứu, hai số đánh giá khách quan PESQ SegSNR cho kết tương đồng tất mơi trường nhiễu thuật tốn nén nhiễu Đây hai số năm đánh giá có mức tương quan cao với cảm nhận nghe thử chủ quan nên cho khả tin cậy độ ổn định cao - Trong thuật toán giảm nhiễu nghiên cứu miền tần số, thuật toán MMSE-PF cho kết khả quan nhất, nhóm thuật tốn miền Wavelet cho khả giảm nhiễu tốt hơn, kết hoàn toàn tương đồng với phương pháp đánh giá chủ quan việc nghe mẫu tín hiệu xử lý Trong tất mơi trường gây nhiễu mơi trường nhiễu trắng cho kết nén nhiễu tốt công suất nhiễu trải rộng có độ ổn định cao thuận tiện cho việc cập nhật xử lý Trang 60 KẾT LUẬN VÀ KIẾN NGHỊ KẾT LUẬN Đề tài trình bày kết nghiên cứu đề xuất giải pháp để nâng cao chất lượng tiếng nói dựa phương pháp ước lượng khử nhiễu phi tuyến tối ưu miền wavelet Nội dung đề tài nghiên cứu phương pháp nén nhiễu miền wavelet với hàm nén ngưỡng cứng, ngưỡng mềm thuật tốn dùng giải pháp lọc Wavelet thống kê có tính cảm quan PSWF sử dụng kỹ thuật ước lượng nhiễu Percentile Filter (PF) Bên cạnh đó, thuật tốn ước lượng nhiễu PF tích hợp vào bên hàm nén nhiễu để phát triển thuật toán khác NSS, logMMSE, MMSE cải tiến Tập hợp sở liệu tín hiệu tiếng nói nghiên cứu gồm 600 mẫu âm thoại cộng nhiễu mức SNR khác loại môi trường nhiễu Nhóm thuật tốn phân tích so sánh thông qua kết đánh giá trực tiếp chất lượng tín hiệu phương pháp đánh giá khách quan với thông số đánh giá khác CEP, LLR, WSS, PESQ, SNRseg Kết phân tích đánh giá rằng: - Trong nhóm thuật toán nén nhiễu miền tần số, thuật toán MMSE-PF cho hiệu nén nhiễu cao Trong nhóm thuật toán nén nhiễu miền Wavelet, thuật toán Shrinking-PF cho kết xử lý tốt hơn, khả nén nhiễu cao hơn, tín hiệu sau xử lý bị phá hủy, đảm bảo tính dễ nghe tín hiệu Kết hoàn toàn tương đồng sau nghe thử mẫu tín hiệu xử lý - Trong số môi trường gây nhiễu khác nhau, nguồn nhiễu trắng cho hiệu nén nhiễu tốt có phổ nhiễu tương đối hẹp cơng suất nhiễu ổn định Các nguồn nhiễu có độ biến động lớn, phổ nhiễu rộng nhiễu đường phố, nhiễu đám đông hiệu nén nhiễu thấp - Trong số phương pháp đánh giá tìm hiểu, phép đánh giá PESQ SNRseg cho kết đáng tin cậy hơn, tương đồng cao với cảm nhận nghe chủ quan KIẾN NGHỊ Từ kết đạt được, tác giả kiến nghị hướng nghiên cứu sau: - Nghiên cứu cải tiến giải pháp giảm nhiễu tối ưu miền Wavelet so sánh với thuật toán xử lý miền tần số nhằm đánh giá hiệu cải thiện chất lượng tiếng nói cho người nghe Trang 61 KẾT LUẬN VÀ KIẾN NGHỊ - Thực đánh giá chủ quan tìm tương đồng đánh giá khách quan so với đánh giá chủ quan, đưa phương pháp đánh giá kết tin cậy - Hiện thực thuật toán giảm nhiễu thiết bị phần cứng chuyên dụng KIT DSP, FPGA đánh giá lại hiệu toàn hệ thống Trang 62 TÀI LIỆU THAM KHẢO TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Phạm Văn Sự, Lê Xuân Thành, “Giáo trình xử lý tiếng nói”, Học viện cơng nghệ bưu viễn thơng [2] Phạm Văn Tuấn, Hồng Lê Un Thục, “Giải pháp giảm nhiễu miền Wavelet để nâng cao hiệu suất nhận dạng tiếng nói tự động” Tạp chí Khoa học Công nghệ, Đại học Đà Nẵng, số 4(39).2010 Tiếng Anh: [3] Boll, S.F., “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans, Acoust Speech Signal Process.,27(2), 113-120, 1979 [4] Lim, Jae S., and Alan V Oppenheim “Enhancement and bandwidth compression of noisy speech.” Proceedings of the IEEE 67.12 (1979): 15861604 [5] Ephraim, Yariv, and David Malah “Speech enhancement using optimal nonlinear spectral amplitude estimation.” Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'83 Vol IEEE, 1983 [6] Ephraim, Yariv, and David Malah “Speech enhancement using a minimum mean-square error log-spectral amplitude estimator” Acoustics, Speech and Signal Processing, IEEE Transactions on 33.2 (1985): 443-445 [7] Cohen, Israel “Speech enhancement using a noncausal a priori SNR estimator.” IEEE signal processing letters 11.9 (2004): 725-728 [8] Hu, Yi, and Philipos C Loizou “Evaluation of objective quality measures for speech enhancement” Audio, Speech, and Language Processing, IEEE Transactions on 16.1 (2008): 229-238 [9] Hu, Yi, and Philipos C Loizou “Subjective comparison of speech enhancement algorithms” Acoustics, Speech and Signal Processing, 2006 ICASSP 2006 Proceedings 2006 IEEE International Conference on Vol IEEE, 2006 [10] Philipos C Loizou “Speech enhancement: theory and practice” CRC press, 2013 [11] Hansen, John HL, and Bryan L Pellom “An effective quality evaluation protocol for speech enhancement algorithms” ICSLP Vol 1998 iii TÀI LIỆU THAM KHẢO [12] Recommendation, I T U T “Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs” ITU-T Recommendation (2001): 862 [13] Klatt, Dennis “Prediction of perceived phonetic distance from critical-band spectra: A first step” Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'82 Vol IEEE, 1982 [14] Pham T.V., Gernot Kubin, Erhard Rank, “Robust Speech Recognition Using Adaptive Noise Threshold Estimation And Wavelet Shrinkage”, Proc IEEE ICCE, Hoi An, Vietnam, 04-06 Feb., 2008 [15] Donoho, David L “De-noising by soft-thresholding.” IEEE transactions on information theory 41.3 (1995): 613-627 [16] Pham T.V., and Gernot Kubin “WPD-based noise suppression using nonlinearly weighted threshold quantile estimation and optimal wavelet shrinking.” Ninth European Conference on Speech Communication and Technology 2005 Trang Web: [17] Philipos C Loizou “NOIZEUS: A noisy speech corpus for evaluation of speech enhancement algorithms” http://ecs.utdallas.edu/loizou/speech/noizeus/ truy cập lần cuối 10/12/2016 iv ... HỌC ĐÀ NẴNG TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU PHI TUYẾN TRONG MIỀN WAVELET NHẰM NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI... GIẢI PHÁP GIẢM NHIỄU PHI TUYẾN TRONG - MIỀN WAVELET NHẰM NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI Mã số: T2016-07-05 - Chủ nhiệm: DƯƠNG NGỌC PHÁP - Thành viên tham gia: không - Cơ quan chủ trì: Trường Cao. .. so sánh hiệu giảm nhiễu thuật tốn khác Tóm tắt kết nghiên cứu: - Trình bày tổng quan lĩnh vực xử lí tiếng nói, nâng cao chất lượng tiếng nói tình hình nghiên cứu giải pháp giảm nhiễu Ứng dụng

Ngày đăng: 24/12/2021, 10:35

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[1]. Phạm Văn Sự, Lê Xuân Thành, “Giáo trình xử lý tiếng nói”, Học viện công nghệ bưu chính viễn thông

Sách, tạp chí

Tiêu đề:	Giáo trình xử lý tiếng nói

[2]. Phạm Văn Tuấn, Hoàng Lê Uyên Thục, “Giải pháp giảm nhiễu trong miền Wavelet để nâng cao hiệu suất nhận dạng tiếng nói tự động”. Tạp chí Khoa học và Công nghệ, Đại học Đà Nẵng, số 4(39).2010.Tiếng Anh

Sách, tạp chí

Tiêu đề:	“Giải pháp giảm nhiễu trong miền Wavelet để nâng cao hiệu suất nhận dạng tiếng nói tự động”." Tạp chí Khoa học và Công nghệ, Đại học Đà Nẵng, số 4(39).2010

[3]. Boll, S.F., “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans, Acoust. Speech Signal Process.,27(2), 113-120, 1979

Sách, tạp chí

Tiêu đề:	Suppression of acoustic noise in speech using spectral subtraction

[4]. Lim, Jae S., and Alan V. Oppenheim. “Enhancement and bandwidth compression of noisy speech.” Proceedings of the IEEE 67.12 (1979): 1586- 1604

Sách, tạp chí

Tiêu đề:	Enhancement and bandwidth compression of noisy speech
Tác giả:	Lim, Jae S., and Alan V. Oppenheim. “Enhancement and bandwidth compression of noisy speech.” Proceedings of the IEEE 67.12
Năm:	1979

[5]. Ephraim, Yariv, and David Malah. “Speech enhancement using optimal nonlinear spectral amplitude estimation.” Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'83.. Vol. 8. IEEE, 1983

Sách, tạp chí

Tiêu đề:	Speech enhancement using optimal non-linear spectral amplitude estimation

[6]. Ephraim, Yariv, and David Malah. “Speech enhancement using a minimum mean-square error log-spectral amplitude estimator”. Acoustics, Speech and Signal Processing, IEEE Transactions on 33.2 (1985): 443-445

Sách, tạp chí

Tiêu đề:	“Speech enhancement using a minimum mean-square error log-spectral amplitude estimator”
Tác giả:	Ephraim, Yariv, and David Malah. “Speech enhancement using a minimum mean-square error log-spectral amplitude estimator”. Acoustics, Speech and Signal Processing, IEEE Transactions on 33.2
Năm:	1985

[7]. Cohen, Israel. “Speech enhancement using a noncausal a priori SNR estimator.” IEEE signal processing letters 11.9 (2004): 725-728

Sách, tạp chí

Tiêu đề:	Speech enhancement using a noncausal a priori SNR estimator.”
Tác giả:	Cohen, Israel. “Speech enhancement using a noncausal a priori SNR estimator.” IEEE signal processing letters 11.9
Năm:	2004

[8]. Hu, Yi, and Philipos C. Loizou. “Evaluation of objective quality measures for speech enhancement”. Audio, Speech, and Language Processing, IEEE Transactions on 16.1 (2008): 229-238

Sách, tạp chí

Tiêu đề:	“Evaluation of objective quality measures for speech enhancement”
Tác giả:	Hu, Yi, and Philipos C. Loizou. “Evaluation of objective quality measures for speech enhancement”. Audio, Speech, and Language Processing, IEEE Transactions on 16.1
Năm:	2008

[9]. Hu, Yi, and Philipos C. Loizou. “Subjective comparison of speech enhancement algorithms”. Acoustics, Speech and Signal Processing, 2006.ICASSP 2006 Proceedings. 2006 IEEE International Conference on. Vol. 1.IEEE, 2006

Sách, tạp chí

Tiêu đề:	“Subjective comparison of speech enhancement algorithms”

[11]. Hansen, John HL, and Bryan L. Pellom. “An effective quality evaluation protocol for speech enhancement algorithms”. ICSLP. Vol. 7. 1998

Sách, tạp chí

Tiêu đề:	“An effective quality evaluation protocol for speech enhancement algorithms”

[13]. Klatt, Dennis. “Prediction of perceived phonetic distance from critical-band spectra: A first step”. Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'82.. Vol. 7. IEEE, 1982

Sách, tạp chí

Tiêu đề:	“Prediction of perceived phonetic distance from critical-band spectra: A first step”

[14]. Pham T.V., Gernot Kubin, Erhard Rank, “Robust Speech Recognition Using Adaptive Noise Threshold Estimation And Wavelet Shrinkage”, Proc. IEEE ICCE, Hoi An, Vietnam, 04-06 Feb., 2008

Sách, tạp chí

Tiêu đề:	Robust Speech Recognition Using Adaptive Noise Threshold Estimation And Wavelet Shrinkage”

[15]. Donoho, David L. “De-noising by soft-thresholding.” IEEE transactions on information theory 41.3 (1995): 613-627

Sách, tạp chí

Tiêu đề:	De-noising by soft-thresholding
Tác giả:	Donoho, David L. “De-noising by soft-thresholding.” IEEE transactions on information theory 41.3
Năm:	1995

[16]. Pham T.V., and Gernot Kubin. “WPD-based noise suppression using nonlinearly weighted threshold quantile estimation and optimal wavelet shrinking.” Ninth European Conference on Speech Communication and Technology. 2005.Trang Web

Sách, tạp chí

Tiêu đề:	WPD-based noise suppression using nonlinearly weighted threshold quantile estimation and optimal wavelet shrinking.”" Ninth European Conference on Speech Communication and Technology. 2005

[17]. Philipos C. Loizou. “NOIZEUS: A noisy speech corpus for evaluation of speech enhancement algorithms”http://ecs.utdallas.edu/loizou/speech/noizeus/ truy cập lần cuối 10/12/2016

Sách, tạp chí

Tiêu đề:	NOIZEUS: A noisy speech corpus for evaluation of speech enhancement algorithms