1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Thuật toán xử lý tiếng nói trong speech enhancement và đánh giá tính hiệu quả của thuật toán

77 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 77
Dung lượng 1,53 MB

Nội dung

Đồ án tốt nghiệp Thuật tốn xử lý tiếng nói Speech Enhancement đánh giá tính hiệu thuật toán LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp PDF by http://www.ebook.edu.vn CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc LỜI CAM ĐOAN Kính gửi: Hội đồng bảo vệ đồ án tốt nghiệp Khoa Điện tử _ Viễn thông _ Trường Đại học Bách Khoa Đà Nẵng Em tên là: Nguyễn Thị Ngọc Diệp Hiện học lớp 04ĐT1- Khoa: Điện tử - Viễn thông – Trường: Đại học Bách Khoa Đà Nẵng Nhóm em xin cam đoan nội dung đồ án chép đồ án công trình có từ trước Sinh viên thực Nguyễn Thị Ngọc Diệp SVTH: Nguyễn Thị Ngọc Diệp Trang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp PDF by http://www.ebook.edu.vn MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH MỞ ĐẦU 10 CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI 13 1.1 Giới thiệu chương 13 1.2 Nâng cao chất lượng tiếng nói ? 13 1.3 Lý thuyết tín hiệu nhiễu 15 1.3.1 Tín hiệu, hệ thống xử lý tín hiệu 15 1.3.1.1 Tín hiệu 15 1.3.1.2 Nguồn tín hiệu 15 1.3.1.3 Hệ thống xử lý tín hiệu 16 1.3.1.4 Phân loại tín hiệu 16 1.4 Lý thuyết nhiễu 17 1.4.1 Nguồn nhiễu 17 1.4.2 Nhiễu mức tín hiệu tiếng nói mơi trường khác 19 1.5 Tín hiệu rời rạc theo thời gian 20 1.5.1 Tín hiệu bước nhảy đơn vị 21 1.5.2 Tín hiệu xung đơn vị 21 1.5.3 Tín hiệu hàm mũ 21 1.5.4 Tín hiệu hàm sin rời rạc 21 1.6 1.6.1 Phép biến đổi Fourier tín hiệu rời rạc DTFT 22 Sự hội tụ phép biến đổi Fourier 22 SVTH: Nguyễn Thị Ngọc Diệp Trang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp PDF by http://www.ebook.edu.vn 1.6.2 Quan hệ biến đổi Z biến đổi Fourier 22 1.6.3 Phép biến đổi Fourier ngược 23 1.6.4 Các tính chất phép biến đổi Fourier 23 1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc 24 1.6.6 Phổ tín hiệu phổ pha 25 1.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói 26 1.7.1 Trừ phổ 26 1.7.2 Mơ hình thống kê 26 1.8 Tín hiệu tiếng nói 26 1.9 Cơ chế tạo tiếng nói 28 1.9.1.1 Bộ máy phát âm người 28 1.9.2 Mơ hình kỹ thuật việc tạo tiếng nói 28 1.9.3 Phân loại âm 29 1.9.4 Thuộc tính âm học tiếng nói 29 1.10 Kết luận chương 29 CHƯƠNG : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI 30 2.1 Giới thiệu chương 30 2.2 Phương pháp đánh giá chủ quan 30 2.2.1 Các phương pháp đánh giá tuyệt đối 31 2.2.1.1 Phương pháp đánh giá tuyệt đối ACR 31 2.2.2 Các phương pháp đánh giá tương đối 31 2.2.2.1 Đánh giá phương pháp so sánh mẫu tín hiệu 31 2.2.2.2 Phương pháp đánh giá theo suy giảm chất lượng 32 2.3 Phương pháp đánh giá khách quan 33 SVTH: Nguyễn Thị Ngọc Diệp Trang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp PDF by http://www.ebook.edu.vn 2.3.1 Đo tỷ số tín hiệu nhiễu khung 33 2.3.2 Đo khoảng cách phổ dựa LPC 35 2.3.2.1 Phương pháp đo LLR 35 2.3.2.2 Phương pháp đo IS 36 2.3.2.3 Phương pháp đo theo khoảng cách cepstrum 36 2.3.3 Đánh giá mô theo cảm nhận nghe người 37 2.3.3.1 Phương pháp đo Weighted Spectral Slope 37 2.3.3.2 Phương pháp đo Bark Distortion 38 2.3.3.3 Phương pháp đánh giá cảm nhận chất lượng thoại PESQ 39 2.4 Kết luận chương 39 CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER FILTERING 41 3.1 Giới thiệu chương 41 3.2 Sơ đồ khối chung Spectral Subtraction Wiener Filtering 41 3.3 Thuật toán Spectral Subtraction 41 3.3.1 Giới thiệu chung 41 3.3.2 Spectral subtraction phổ biên độ 42 3.3.3 Spectral subtraction phổ công suất 43 3.4 Thuật toán Wiener Filtering 45 3.4.1 Giới thiệu chung 45 3.4.2 Nguyên lý Wiener Filtering 46 3.5 Overlap Adding q trình xử lý tín hiệu tiếng nói 48 3.5.1 Phân tích tín hiệu theo frame 48 3.5.2 Overlap Adding 49 SVTH: Nguyễn Thị Ngọc Diệp Trang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp 3.6 PDF by http://www.ebook.edu.vn Ước lượng cập nhật nhiễu 50 3.6.1 Voice activity detection 51 3.6.2 Quá trình ước lượng cập nhật nhiễu 51 3.7 Kết luận chương 52 CHƯƠNG 4: THỰC HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN 53 4.1 Giới thiệu chương 53 4.2 Quy trình thực đánh giá thuật toán 53 4.3 Lưu đồ thuật toán Spectral Subtraction 55 4.4 Lưu đồ thuật toán Wiener Filtering 56 4.5 Thực thuật toán 57 4.6 Đánh giá chất lượng tiếng nói xử lý 59 4.6.1 Cơ sở liệu cho việc đánh giá 59 4.6.2 Tổng quan quy trình đánh giá 59 4.6.3 Kiểm tra độ tin cậy phương pháp đánh giá 60 4.6.4 Thực đánh giá 62 4.6.4.1 Đánh giá thuật toán với hệ số dự đoán ban đầu 62 4.6.4.2 Tối ưu hệ số alpha cho thuật toán WF 65 4.6.4.3 Hệ số gamma cho thuật toán SS 67 4.6.4.4 Đánh giá thuật toán sau tối ưu 68 4.6.4.5 Đánh giá độ ổn định thuật tốn mơi trường nhiễu khác 69 4.6.5 Kết luận chương 71 TÀI LIỆU THAM KHẢO 72 KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 75 PHỤ LỤC 76 SVTH: Nguyễn Thị Ngọc Diệp Trang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp PDF by http://www.ebook.edu.vn DANH MỤC CÁC HÌNH VẼ VÀ BẢNG Hình 1.1 Tín hiệu tiếng nói [2] 15 Hình 1.2 Dạng phân bố phổ lượng trung bình nhiễu xe [4] 18 Hình 1.3 Dạng phân bố phổ lượng trung bình nhiễu tàu [4] 18 Hình 1.4 Dạng phân bố phổ lượng trung bình nhiễu nhà hàng[4] 19 Hình 1.5 Mức nhiễu tiếng nói (được đo SPL dB) môi trường khác [4] 20 Hình 1.6 Mẫu tiếng nói “eee” lấy mẫu với tần số lấy mẫu 8kHz [11] 25 Hình 1.7 Dạng sóng tín hiệu tiếng nói câu “The wife helped her husband” dạng sóng phụ âm “f” từ “wife, dạng sóng đoạn nguyên âm “er” từ “her” [11] 27 Hình 1.8 mặt cắt dọc quan tạo tiếng nói [11] 28 Hình 1.9 mơ hình kỹ thuật tạo tiếng nói[11] 28 Hình 1.10 bảng phân loại âm vị tiếng Anh người Mỹ [11] 29 Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS [12] 31 Bảng 2.4 Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR 32 Bảng 2.5 Thang đánh giá DCR 32 Hình 3.1 Sơ đồ khối cho hai thuật tốn SS WF 41 Hình 3.2 Sơ đồ khối thuật tốn Spectral subtraction [26] 45 Hình 3.3 Sơ đồ khối thuật toán Wiener Filtering 48 Hình 3.4 Phân tích tín hiệu thành frame [31] 49 Hình 3.5 trình thực overlap adding [32] 50 Hình 4.1 Sơ đồ thực đánh giá thuật toán tăng cường 53 Hình 4.2 Lưu đồ thuật tốn SS 55 Hình 4.3 Lưu đồ thuật tốn WF 56 Hình 4.4 dạng sóng spectrogram tín hiệu 57 Hình 4.5 Dạng sóng phổ tín hiệu bị nhiễu xe với SNR = 10dB 57 SVTH: Nguyễn Thị Ngọc Diệp Trang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp PDF by http://www.ebook.edu.vn Hình 4.6 Dạng sóng spectrogram tín hiệu sau xử lý nhiễu xe SS với SNR = 10dB 58 Hình 4.7 Dạng sóng spectrogram tín hiệu sau xử lý nhiễu xe WF với SNR = 10dB 58 Hình 4.8 Quy trình thực đánh giá 60 Hình 4.9 Đồ thị kiểm tra độ ổn định đánh giá OE nhiễu xe 61 Hình 4.10 Đồ thị kiểm tra độ ổn định đánh giá OE nhiễu người nói xung quanh 61 Hình 4.11 Đồ thị đánh giá Objective với hệ số IS=0.2, NoiseMargin=3 63 Hình 4.12 Đồ thị đánh giá Objective với hệ số IS=0.15, NoiseMargin=2 64 Hình 4.14 Đồ thị đánh giá objective với hệ số alpha=0.5, 0.8,0.9 với IS=0.15 NoiseMargin = 66 Hình 4.15 Đồ thị đánh giá objective với hệ số gamma = gamma = 67 Hình 4.16 Đồ thị đánh giá với IS=0.15 NoiMargin= alpha = 0.8 cho thuật toán WF, gama=1 cho thuật toán SS 69 Hình 4.17 Đồ thị đánh giá OE với nhiễu người nói xung quanh 70 SVTH: Nguyễn Thị Ngọc Diệp Trang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp PDF by http://www.ebook.edu.vn DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH Từ viết Tiếng Anh Nghĩa tiếng Việt SNR Signal Noise Ratio Tỉ số tín hiệu nhiễu PC Personal Computer Máy tính cá nhân SPL Sound Pressure Level Mức áp suất âm MMSE Minium Mean-Squared Error SVD Singular Value Decomposition Phép phân tích giá trị đơn DFT Discrete Fourier Transform Phép biến đổi Fourier rời rạc FFT Fast Fourier Transform Phép biến đổi Fourier nhanh DTFT Discrete-Time Fourier Transform ZT Z Transform Phép biến đổi Z ROC Region of Convergence Miền hội tụ Inverse Discrete Fourier Phép biến đổi ngược Fourier Transform rời rạc tắt IDTFT LTI ITU-T Linear Time-Invariant Tối thiểu hố sai lệch trung bình bình phương Phép biến đổi Fourier tín hiệu rời rạc Hệ thống tuyến tính bất biến theo thời gian InternationalTelecommunications Hiệp hội tiêu chuẩn viễn Union-Telecommunication thông quốc tế ACR Absolute Categories Rating Đánh giá theo giá trị tuyệt đối MOS Mean Opinion Scores CCR Comparison Category Rating Đánh giá cách so sánh DCR Degradation Category Rating Đánh giá suy giảm chất lượng SVTH: Nguyễn Thị Ngọc Diệp Đánh giá theo quan điểm người nghe Trang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp PDF by http://www.ebook.edu.vn SE Subjective Evaluation Đánh giá chủ quan OE Objective Evaluation Đánh giá khách quan IS Itakura_Saito LLR Log likehook Raito WSS Weighted Spectral Slope Đo theo trọng số phổ LPC Linear Prediction Coefficients Hệ số dự đốn tuyến tính VAD Voice Activity Detection Speech Enhancement Thăm dị hoạt động tiếng nói Nâng cao chất lượng tiếng nói Thuật tốn giảm nhiễu tín SS Spectral Subtraction hiệu tiếng nói phương pháp trừ phổ Thuật tốn giảm nhiễu tín WF Wiener Filter hiệu tiếng nói cách sử dụng lọc Wiener Thuật tốn giảm nhiễu tín Statistical-model-based hiệu tiếng nói dựa ngun lý thống kê Frame Khung tín hiệu Hamming Cửa sổ Hamming Overlap Adding Xếp chồng cộng SVTH: Nguyễn Thị Ngọc Diệp Trang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 4: Thực đánh giá thuật tốn ¾ Đối với đánh giá SNRseg đồ thị lên theo chiều tăng dần SNR ¾ Đối với đánh giá LLR, IS WSS đồ thị có hướng xuống variance giảm dần theo chiều tăng dần SNR chứng tỏ phổ tín hiệu có SNR cao gần với phổ tín hiệu Qua kiểm tra thấy phương pháp đánh giá ổn định đủ tin cậy để thực đánh giá tín hiệu tiếng nói qua xử lý 4.6.4 Thực đánh giá Trong trình nghiên cứu triển khai thuật tốn ta nhận thấy thơng số sau ảnh hưởng lớn đến thuật toán: - NoiseMargin :là ngưỡng để nhận biết nhiễu VAD Mặc định thuật toán Noise margin 3db - IS :hệ số thời gian khơng có tiếng nói file âm dùng để tính tốn nhiễu ban đầu Do kiểm tra đoạn im lặng ban đầu file ta nhận thấy file từ 0.15s đến 0.2s đoạn im lặng.Ta lựa giá trị IS 0.2 - Đối với thuật tốn WF ta có thêm hệ số alpha hệ số làm trơn phương pháp ước lượng tỉ số Priori SNR -Đối với thuật toán SS có hệ số Gramma hệ số định nhiễu trừ theo biên độ hay lượng Ta chọn giá trị Gramma tức thuật toán Subtraction trừ nhiễu theo biên độ 4.6.4.1 Đánh giá thuật toán với hệ số dự đoán ban đầu Hệ số IS=0.2, NoiseMargin=3 ¾ Đánh giá OE Sau thực thuật toán SS WF với thơng số alpha=0.9, gamma=1, NoiseMargin=3,IS=0.2 ta có đồ thị đánh giá SNR, LLR, IS, WSS sau SVTH: Nguyễn Thị Ngọc Diệp Trang 62 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 4: Thực đánh giá thuật tốn Hình 4.11 Đồ thị đánh giá Objective với hệ số IS=0.2, NoiseMargin=3 Theo đồ thị ta có nhận xét sau : Đối với thơng số đánh giá SNR cho ta thấy tỉ số SNR có tăng so với file chưa xử lý Chứng tỏ thuật tốn loại trừ mơt phần nhiểu khỏi file Nhưng so sánh IS, LLR, WSS ta lại thấy file chưa xử lý lại có kết tốt file xử lý Do đánh giá IS, LLR, WSS so sánh khoảng cách phổ file xử lý file tính giá trị trung bình nên ta dự đoán lượng file xử lý lệch nhiều với file thuật tốn tồi lượng tín hiệu bị nén phần ¾ Đánh giá SE Sau kiểm tra file đầu phương pháp nghe thử ta có nhận xét sau đây: Một số file đầu thuật toán SS WF có mức độ nén nhiễu khác cao dẫn tới việc phần tiếng nói ¾ Kết luận tối ưu thơng số cho thuật tốn VAD Qua nhận xét đánh giá OE SE ta rút kết luận sau: Do thuật toán VAD với thông số đề IS=0.2 NoiseMargin=3 không tốt nên phần âm bị ước lượng nhiễu nên bị thuật toán nén dẫn tới việc lượng phần âm SVTH: Nguyễn Thị Ngọc Diệp Trang 63 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 4: Thực đánh giá thuật tốn Đối với thơng số IS ta phải thay đổi sau : Do đoạn lặng file nằm khoảng 0.15s đến 0.2s Nếu ta để 0.2 lớn sơ file nên phần lượng tiếng nói file thuật toán VAD xem nhiễu phần tiếng nói bị loại bỏ Đó hạn chế thuật tốn VAD dùng đề tài : giữ cứng giá trị IS( đoạn im lặng) để cài đặt nhiễu không phù hợp cho tất file âm Đối với thơng số NoiseMargin: Vì ta chọn mức ngưỡng để nhận biết nhiễu 3dB lớn nên tương tự giá trị IS với mức ngưỡng phần tín hiệu bị loại bỏ khác gần với nhiễu dù IS có tối ưu Qua thực nghiệm ta có hệ số NoiseMargin tối ưu Đó giá trị mà tín hiệu khơng bị ước lượng nhiễu Vậy giá trị tối ưu cho thuật toán VAD : hệ số IS phải điều chỉnh lại 0.15s, hệ số NoiseMargin Hệ số IS=0.15 ,hệ số NoiseMargin=2 ¾ Đánh giá OE Sau thuật lại thuật toán SS WF với hệ số IS=0.15,hệ số NoiseMargin=2 ta có đồ thị đánh giá IS, SNR, WSS, LLS sau : Hình 4.12 Đồ thị đánh giá Objective với hệ số IS=0.15, NoiseMargin=2 SVTH: Nguyễn Thị Ngọc Diệp Trang 64 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 4: Thực đánh giá thuật tốn Ta nhận thấy thơng số SNR tương tự trường hợp IS = 0.2 NoiseMargin=2 Nhưng ta giá trị LLR IS so sánh tín hiệu xử lý SS WF giảm, giá trị IS giảm đáng kể.Đặc biệt với thuật toán SS giá trị IS xuống ngưỡng file nhiễu Điều chứng tỏ thơng số thật tốt Nhưng giá trị IS rât lớn thuật toán WF mức SNR 0dB 10dB giá trị IS thuật tốn Wiener cịn nằm giá trị IS file chưa xử lý file ¾ Đánh giá SE Sau nghe thử file đầu thuật toán SS thuật toán WF Ta nhận thấy thuật toán SS thật làm viêc tốt hạ mức nhiễu file âm Nhưng thuật toán WF hạ mức nhiễu file âm số file bị tiếng nói điều chứng tỏ hệ số thuật tốn WF chưa tốt ¾ Kết luận Kết hợp nhận xét OE SE ta có kết luận với hệ số IS=0.15 NoiseMargin=2 thuật tốn VAD làm việc thật tối ưu cho nhiễu xe Và hệ số thuật tốn Wiener chưa tối ưu hệ số alpha 4.6.4.2 Tối ưu hệ số alpha cho thuật toán WF Ta đánh giá hệ số alpha cho thuật toán WF qua trường hợp hệ số alpha=0.5, 0.8,0.9 với IS=0.15 NoiseMargin = để chọn trường hợp tốt ¾ Đánh giá objective SVTH: Nguyễn Thị Ngọc Diệp Trang 65 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 4: Thực đánh giá thuật tốn Hình 4.14 Đồ thị đánh giá objective với hệ số alpha=0.5, 0.8,0.9 với IS=0.15 NoiseMargin = Qua đồ thị SNR ta nhận thấy hệ số alpha lớn mức nhiễu bị nén lớn (tỉ số SNR lớn) Qua đồ thị IS ta thấy hệ số alpha nhỏ tác động vào file tỉ số SNR lớn tốt Giá trị alpha=0.9 tác động vào file có SNR=10 dB cho file output có khoảng cách phổ xa so với file file nhiễu Còn lại giá trị alpha khác alpha=0.9 với mức file nhiễu có tỉ số SNR khác cho kết tốt so với file file nhiễu.Và hệ số alpha 0.5 tốt đồ thị is đặc biêt với file nhiễu có tỉ số SNR=15dB tác động ổn định (variant nhỏ) ¾ Đánh giá subjective Qua việc kiểm tra subjective ta nhận thấy với hệ số alpha=0.5 tác động ổn định tốt với file nhiễu có mức SNR=15dB cho file Nhưng với mức dB khác ko tốt so với hệ số alpha khác, nhiễu tương đối nhiều.Đối với hệ số alpha 0.9 với mức file nhiễu có SNR=10dB tác động khơng tốt, số file tín hiệu bị nén ¾ Kết luận SVTH: Nguyễn Thị Ngọc Diệp Trang 66 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 4: Thực đánh giá thuật toán Qua nhận xét đánh giá SE OE ta rút kết luận hệ số alpha=0.8 hệ số tối ưu cho tất trường hợp nén nhiễu không nhiều hệ số alpha không nén ln tín hiệu sạch, bảo đảm tín hiệu nghe tốt, nhiễu bị hạ xuống tương đối nhiều Ta có thêm nhận xét cách đánh giá OE khơng phải lúc hồn tồn xác hệ số alpha=0.5 đồ thị IS tốt với việc kiểm tra SE tốt trường hợp 15dB hay đồ thị SNR hệ số alpha tốt có số trường hợp tín hiệu bị nén 4.6.4.3 Hệ số gamma cho thuật tốn SS Vì thuật tốn SS thuật tốn trừ nhiễu nên ta có cách trừ nhiễu trừ theo lượng trừ theo biên độ nên ta cung cấp hệ số gamma gamma=1 trừ theo biên độ gamma =2 trừ theo lượng Sau ta đánh giá tìm cách trừ tốt nhất( gamma=1 hay 2) ¾ Đánh giá OE Hình 4.15 Đồ thị đánh giá objective với hệ số gamma = gamma = SVTH: Nguyễn Thị Ngọc Diệp Trang 67 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 4: Thực đánh giá thuật toán Ta nhận thấy thơng số SNR IS hệ số gamma=2 tức trừ theo lượng tốt ngoại trừ file nhiễu có SNR 10dB.Và gamma=1 hay gamma = đưa đồ thị tốt đồ thị file nhiễu với file ¾ Đánh giá SE Sau kiểm tra SE ta nhận thấy hệ số gamma=2 tức trừ theo lượng nhiễu bị nén ít, file đầu khơng tốt hệ số gamma=1 ¾ Kết luận Sau so sánh OE SE ta có kết luận đồ thị phản ánh hệ số gamma=2 tốt thực tế hệ số gamma=1 tốt hơn.Chứng tỏ việc đánh giá OE nói khơng phải lúc Ta chọn hệ số gamma tối ưu 4.6.4.4 Đánh giá thuật toán sau tối ưu Sau thực loạt hệ số thử nghiêm ta chọn hệ số tối ưu : -Thuật toán VAD: hệ số IS=0.15, NoiseMargin = -Thuật toán WF hệ số alpha=0.8 -Thuật toán SS trừ theo biên độ Và việc đánh giá OE đánh giá mặt tốn khơng phải lúc , đánh giá OE phải kèm với đánh giá SE SVTH: Nguyễn Thị Ngọc Diệp Trang 68 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 4: Thực đánh giá thuật tốn Hình 4.16 Đồ thị đánh giá với IS=0.15 NoiMargin= alpha = 0.8 cho thuật toán WF, gama=1 cho thuật toán SS 4.6.4.5 Đánh giá độ ổn định thuật tốn mơi trường nhiễu khác ¾ Đánh giá OE Thực nghe tín hiệu qua xử lý thấy số file tín hiệu có đoạn nghe nhiễu khơng nghe tiếng nói Điều giải thích nhiễu người nói có lượng nhiễu tương đương với lượng tiếng nói, số file tín hiệu tiếng nói có mức lượng thấp mức lượng nhiễu nên đoạn tiếng nói bị trừ cịn lại nhiễu ¾ Đồ thị Áp dụng thông số tối ưu nhiễu xe cho nhiễu người nói xung quanh có đồ thị đánh sau SVTH: Nguyễn Thị Ngọc Diệp Trang 69 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 4: Thực đánh giá thuật tốn Hình 4.17 Đồ thị đánh giá OE với nhiễu người nói xung quanh ¾ Nhận xét Nhận xét theo đồ thị bốn phép đánh giá ta thấy nhiễu người nói xung quanh SS xử lý tốt WF Nhưng ba phương pháp đánh giá ba giá trị WSS, LLR, IS tín hiệu xử lý so với tín hiệu lại khơng tốt giá trị tín hiệu nhiễu chưa xử lý so với tín hiệu (so sánh tín hiệu xử lý có giá trị lớn hơn) Riêng với phép đánh giá IS ta thấy thuật tốn xử lý nhiễu có tác động tốt nhiễu 0dB 5dB Bên cạnh variant cịn lớn có số file có giá trị so sánh lớn giá trị file khác nhiều (điều xảy car noise) thể bảng giá trị IS [matlab file] Lý giải cho điều số tín hiệu bị nhiễu đột biến ¾ Đánh giá SE Khi thực nghe file âm bị nhiễu người nói xung quanh xử lý SS WF có số đoạn tiếng nói bị mất, nghe nhiễu khơng nghe tiếng nói SVTH: Nguyễn Thị Ngọc Diệp Trang 70 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 4: Thực đánh giá thuật toán Điều lý giải nhiễu người nói xung quanh có mức lượng tương đương với mức lượng tiếng nói nên số file âm có đoạn tiếng nói có mức lượng thấp mức lượng nhiễu tiếng nói bị trừ cịn lại nhiễu ¾ Nhận xét chung Khi đem thông số tối ưu để xử lý nhiễu xe áp dụng với người nói xung quanh kết khơng tốt Đối với nhiễu người nói xung quanh thuật toán SS tác động tớt WF 4.6.5 Kết luận chương Qua kết đánh giá OE SE đưa kết luận : - Đối với loại nhiễu khác tác động thuật toán tăng cường khác - Đối với mức nhiễu khác thuật tốn tác động khác SVTH: Nguyễn Thị Ngọc Diệp Trang 71 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp TÀI LIỆU THAM KHẢO [1] Ramabadran, T.,Ashley, J., and McLaughin, M.(1997), Background noise suppression for speech enhancement and coding, Proc IEEE Workshop Speech Coding Telecommun [2] Ths.Hồng Lê Un Thục, Giáo trình xử lý tín hiệu số, Đại học Bách Khoa – Đại học Đà Nẵng [3].Hu, Y and Loizou, P(2006), Subjective comparison of speech enhancement algorithms, Proc IEEE Int.Conf Acoust Speech Signal Process, I [4] Philippos C.Loizou, Speech Enhancement Theory and Practice,pp 2-7 [5] Long, M (2005), Dinner Conversation (An oxymoron?), Acoustics Today,l(1), pp 25-27 [6] Lombard, E.(1911), Le signe de lelevation de la voix, Ann Mal Oreil Larynx.,37, 101-119 [7] Nguyễn Quốc Trung, Xử lý tín hiệu số - tập 1, NXB Khoa học kĩ thuật [8] Lim, J and Oppenheim, A.V.(1979), Enhancement and bandwidth compression of noisy speech, Proc IEEE, 67(12),pp 1586-1604 [9] Weiss, M., Aschkenasy, E., and Parsons, T.(1974), Study and the development of the INTEL technique for improving speech intelligibility, Technical Report NSC-FR/ 4023 [10] Boll, S.F (1979), Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans, Acoust Speech Signal Process.,27(2), 113-120 [10] Philippos C.Loizou, Speech Enhancement Theory and Practice,pp 46-57 [11] “Methods for Subjective Determination of Transmission Quality”, ITU_T Recommendation P.800, August 1996 [12] Philipos C.Loizou, “Speech Enhancement Theory and Practice”, CRC Press, Taylor and Francis Group [13] Friedrich Schafer, “Artificial Bandwidth Extension of Narrowband Speech”, Signal Processing and Speech Communication Lab, Technical University Graz SVTH: Nguyễn Thị Ngọc Diệp Trang 72 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp [14] Hansen J and Pellon B , “An effective quality evaluation protocol for Speech Enhancement algorithms”, Proc Int Conf Spoken Language Process, 1998 [15] http://en.wikipedia.org/wiki/Code_Excited_Linear_Prediction [16] Beey Y , Shpiro Z , Simchony T , Shatz L and Piasetzky J., “An efficient variable_bit_rate_low_delay (VBR_LP_CELP) code” , New York, Marcel Pekker, 1990 [17] Yi Hu and Philipos C Loizou, “Evaluation of Objective Quality Measures for Speech Enhancement”, IEEE [18] Klatt D., “Prediction of perceived phonetic distance from critical band spectra”, Proc IEEE Int Conf Acoust Speech Signal Process [19] Kitawaki N., Nagabuchi H., and Itoh K., “Objective Evaluation for low bit_rate Speech Coding systems”, IEEE J, Sel Areas Commun [20] Quackenbush S., Barnwell T and Clements M., “Objective Measure of Speech Quality”, Englewood Cliffs NJ: Prenticư Hall [21] Boll, S.F(1979), Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans Acoust Speech Signal Process., 27(2), 113-120 [22] Paliwal, K and Alsteris, L.(2005), On the usefulness of STFT phase spectrum in human listening tests, Speech Commun., 45(2), 153-170 [23] Weiss, M., Aschkenasy, E., and Parsons, T., (1974), Study and the Development of the INTEL Technique for Improving Speech Intelligibility, Technical Report NSC-FR/4023, Nicolet Scientific Corporation [24] Deller, J., Hansen, J.H.L., and Proakis, J (2000), Discrete –time Processing of Speech Signals, New York : IEEE Press [25] Guastafsson, H., Nordholm, S., and Claesson, I.(2001), Spectral subtraction using reduced delay convolution and adaptive averaging, IEEE Trans Speech Audio Process., 9(8), 799-807 [26] Philippos C.Loizou, Speech Enhancement Theory and Practice,pp 100 SVTH: Nguyễn Thị Ngọc Diệp Trang 73 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp [27] Paliwal, K and Alsteris, L.(2005), On the usefulness of STFT phase spectrum in human listening tests, Speech Commun., 45(2), 153-170 [28] Lim, Oppenheim, Speech Enhancement Using a Soft-Decision noise Suppression EEE Trans Acoustics, Speech and Signal Processing, vol assp-28, no 2, april 1980 [29] Y Ephraim and D Malah, Speech Enhancement Using a Minimum MeanSquare Error Short-Time Spectral Amplitude Estimator, IEEE Trans Acoustics, Speech and Signal Processing, vol 32, no 6, pp 1109–1121, December 1984 [30] P Scalart and J Vieira-Filho, “Speech enhancement based on a priori signal to noise estimation,” in Proc 21st IEEE Int Conf Acoust Speech Signal Processing, Atlanta, GA, May 1996, pp 629–632 [31] Dominic K C Ho, Speech Enhancement : concept and methodology, Demo prepared by Tong Wang, University of Missouri-Columbia [32] http://www.utdallas.edu/~loizou/speech/noizeus/ SVTH: Nguyễn Thị Ngọc Diệp Trang 74 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI Chất lượng tiếng nói bị suy giảm tác động nhiễu môi trường xung quanh vấn đề quan trọng cần phải giải Việc tìm phương pháp để triệt nhiễu giảm nhiễu tiếng nói ln ln đề tài quan tâm nhiều Trong dịch vụ truyền thông với phương tiện ngơn ngữ tiếng nói việc tăng cường, cải thiện chất lượng tiếng nói bị nhiễu thiết, giúp cho người nghe nghe rõ người nói nói Đồ án thực vấn đề : - Tìm hiểu nghiên cứu phương pháp cải thiện chất lượng tiếng nói, tập trung vào thuật tốn có Speech enhancement : Spectral Subtraction Wiener Filtering - Xây dựng chương trình thực xử lý nhiễu file âm bị nhiễu dựa thuật toán : Spectral Subtraction Wiener Filtering - Thực đánh giá tính hiệu thuật tốn mơi trường nhiễu mức độ nhiễu khác nhau, từ đưa biện pháp tối ưu hóa thuật toán Kết đạt cho thấy WF thuật toán giảm nhiễu tốt SS Các thuật toán giảm nhiễu có hiệu khác mơi trường nhiễu khác Tuy nhiên đồ án chưa giải hết vấn đề Speech enhancement nên hướng phát triển đề tài tương lai : - Tìm hiểu, nghiên cứu xây dựng chương trình thực xử lý nhiễu tiếng nói dựa thuật tốn khác Speech enhancement - Nghiên cứu đưa thuật toán xử lý nhiễu triệt nhiễu Speech enhancement Phát triển chương trình thực dịch vụ ứng dụng thời gian thực dịch vụ lĩnh vực truyền thông đa phương tiện : thoại, âm nhạc, truyền hình hội nghị SVTH: Nguyễn Thị Ngọc Diệp Trang 75 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ án tốt nghiệp PHỤ LỤC Toàn mã nguồn chương trình thực lưu trữ đĩa CD đính kèm SVTH: Nguyễn Thị Ngọc Diệp Trang 76 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... tín hiệu tiếng nói hình thành tiếng nói Bên cạnh cịn giới thiệu khái qt số thuật toán Speech Enhancement Chương : Đánh giá chất lượng tiếng nói Chương giới thiệu số phương pháp đánh giá hiệu thuật. .. lưu đồ thuật toán, thực xử lý tiếng nói thuật tốn Dựa kết đạt sau xử lý, sau sử dụng phương pháp đánh giá khách quan để đánh giá tính hiệu thuật tốn xử lý mơi trường thực tế Đồ án nhóm thực thuật. .. luanvanchat@agmail.com Chương : Đánh giá chất lượng tiếng nói CHƯƠNG : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI 2.1 Giới thiệu chương Cho đến có nhiều thuật tốn nâng cao chất lượng tiếng nói, làm để đánh giá hiệu chúng Phần

Ngày đăng: 02/11/2022, 14:52

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w