Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
3,44 MB
Nội dung
ĐỒÁNTỐTNGHIỆP ĐỀ TÀI XỬLÝTIẾNGNÓI SVTH: NGUYỄN THỊ NGỌC DIỆP CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc Đồ ántốtnghiệp LỜI CAM ĐOAN Kính gửi: Hội đồng bảo vệ đồ ántốtnghiệp Khoa Điện tử _ Viễn thông _ Trường Đại học Bách Khoa Đà Nẵng. Em tên là: Nguyễn Thị Ngọc Diệp Hiện đang học lớp 04ĐT1- Khoa: Điện tử - Viễn thông – Trường: Đại học Bách Khoa Đà Nẵng. Nhóm em xin cam đoan nội dung của đồán này không phải là bản sao chép của bất cứ đồán hoặc công trình đã có từ trước. Sinh viên thực hiện Nguyễn Thị Ngọc Diệp MỤC LỤC LỜI CAM ĐOAN 2 MỤC LỤC 2 DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH 5 MỞ ĐẦU 6 CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNGNÓI 10 CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI 26 CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER FILTERING 37 SVTH: Nguyễn Thị Ngọc Diệp Trang 2 2 Đồántốtnghiệp CHƯƠNG 4: THỰC HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN 48 KẾT LUẬN ĐỒÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 68 PHỤ LỤC 69 DANH MỤC CÁC HÌNH VẼ VÀ BẢNG Hình 1.1 Tín hiệu tiếngnói [2] 12 Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [4] 14 Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu [4]. 15 Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà hàng[4] 15 Hình 1.5 Mức nhiễu và tiếngnói (được đo bằng SPL dB) trong các môi trường khác nhau [4] 17 Hình 1.6 Mẫu tiếngnói “eee” được lấy mẫu với tần số lấy mẫu 8kHz [11] 22 Hình 1.7 Dạng sóng tín hiệu tiếngnói của câu “The wife helped her husband” và dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er” trong từ “her” [11] 23 Hình 1.8 mặt cắt dọc của cơ quan tạo tiếngnói [11] 24 Hình 1.9 mô hình kỹ thuật tạo tiếng nói[11] 24 Hình 1.10 bảng phân loại âm vị trong tiếng Anh của người Mỹ [11] 25 Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS [12] 27 Bảng 2.4. Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR 28 Bảng 2.5. Thang đánh giá DCR 28 Hình 3.1 Sơ đồ khối cho hai thuật toán SS và WF 37 Hình 3.2 Sơ đồ khối của thuật toán Spectral subtraction [26] 41 Hình 3.3 Sơ đồ khối của thuật toán Wiener Filtering 43 SVTH: Nguyễn Thị Ngọc Diệp Trang 3 3 Đồántốtnghiệp Hình 3.4 Phân tích tín hiệu thành các frame [31] 44 Hình 3.5 quá trình thực hiện overlap và adding [32] 45 Hình 4.1. Sơ đồ thực hiện và đánh giá thuật toán tăng cường 48 Hình 4.2 Lưu đồ thuật toán SS 50 Hình 4.3 Lưu đồ thuật toán WF 51 Hình 4.4 dạng sóng và spectrogram của tín hiệu sạch 52 Hình 4.5 Dạng sóng và phổ của tín hiệu bị nhiễu xe hơi với SNR = 10dB 52 Hình 4.6 Dạng sóng và spectrogram của tín hiệu sau khi xửlý nhiễu xe hơi bằng SS với SNR = 10dB 53 Hình 4.7 Dạng sóng và spectrogram của tín hiệu sau khi xửlý nhiễu xe hơi bằng WF với SNR = 10dB 53 Hình 4.8 Quy trình thực hiện đánh giá 55 Hình 4.9. Đồ thị kiểm tra độ ổn định của đánh giá OE đối với nhiễu xe hơi 55 Hình 4.10. Đồ thị kiểm tra độ ổn định của đánh giá OE đối với nhiễu người nói xung quanh 56 Hình 4.11 Đồ thị đánh giá Objective với hệ số IS=0.2, NoiseMargin=3 57 Hình 4.12 Đồ thị đánh giá Objective với hệ số IS=0.15, NoiseMargin=2 59 Hình 4.14 Đồ thị đánh giá objective với hệ số alpha=0.5, 0.8,0.9 với IS=0.15 và NoiseMargin = 2 60 Hình 4.15 Đồ thị đánh giá objective với hệ số gamma = 1 và gamma = 2 62 Hình 4.16 Đồ thị đánh giá với IS=0.15 NoiMargin= 2 và alpha = 0.8 cho thuật toán WF, gama=1 cho thuật toán SS 63 Hình 4.17 Đồ thị đánh giá OE với nhiễu người nói xung quanh 64 SVTH: Nguyễn Thị Ngọc Diệp Trang 4 4 Đồántốtnghiệp DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH Từ viết tắt Tiếng Anh Nghĩa tiếng Việt SNR Signal Noise Ratio Tỉ số tín hiệu trên nhiễu PC Personal Computer Máy tính cá nhân SPL Sound Pressure Level Mức áp suất của âm thanh MMSE Minium Mean-Squared Error Tối thiểu hoá sai lệch trung bình bình phương SVD Singular Value Decomposition Phép phân tích giá trị đơn DFT Discrete Fourier Transform Phép biến đổi Fourier rời rạc FFT Fast Fourier Transform Phép biến đổi Fourier nhanh DTFT Discrete-Time Fourier Transform Phép biến đổi Fourier của tín hiệu rời rạc. ZT Z Transform Phép biến đổi Z ROC Region of Convergence Miền hội tụ IDTFT Inverse Discrete Fourier Transform Phép biến đổi ngược Fourier rời rạc LTI Linear Time-Invariant Hệ thống tuyến tính và bất biến theo thời gian ITU-T InternationalTelecommunication s Union-Telecommunication Hiệp hội tiêu chuẩn viễn thông quốc tế ACR Absolute Categories Rating Đánh giá theo giá trị tuyệt đối MOS Mean Opinion Scores Đánh giá theo quan điểm người nghe CCR Comparison Category Rating Đánh giá bằng cách so sánh DCR Degradation Category Rating Đánh giá suy giảm chất lượng SVTH: Nguyễn Thị Ngọc Diệp Trang 5 5 Đồántốtnghiệp SE Subjective Evaluation Đánh giá chủ quan OE Objective Evaluation Đánh giá khách quan IS Itakura_Saito LLR Log likehook Raito WSS Weighted Spectral Slope Đo theo trọng số của phổ LPC Linear Prediction Coefficients Hệ số dự đoán tuyến tính VAD Voice Activity Detection Thăm dò sự hoạt động của tiếngnói Speech Enhancement Nâng cao chất lượng tiếngnói SS Spectral Subtraction Thuật toán giảm nhiễu tín hiệu tiếngnói bằng phương pháp trừ phổ. WF Wiener Filter Thuật toán giảm nhiễu tín hiệu tiếngnói bằng cách sử dụng bộ lọc Wiener. Statistical-model-based Thuật toán giảm nhiễu tín hiệu tiếngnói dựa trên nguyên lý thống kê Frame Khung tín hiệu. Hamming Cửa sổ Hamming Overlap và Adding Xếp chồng và cộng MỞ ĐẦU Trong cuộc sống, tiếngnói đóng một vai trò rất quan trọng đối với con người. Cùng với tiếngnói là sự xuất hiện của rất nhiều các loại dịch vụ thoại như ngày nay. Tuy nhiên việc bảo toàn được tín hiệu tiếngnói trên các dịch vụ này là điều vô cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh hưởng của nhiễu sẽ làm cho tín hiệu tiếngnói không còn như ban đầu. Vì lýdođó mà SVTH: Nguyễn Thị Ngọc Diệp Trang 6 6 Đồántốtnghiệp các thuật toán về Speech Enhancement ra đời. Tuy không thể bảo toàn được y nguyên tín hiệu ban đầu nhưng sử dụng các thuật toán này ta có thể tăng cường được chất lượng tiếngnói và giảm bớt nhiễu nền để tín hiệu sau khi xửlý đến người nghe vẫn mang đầy đủ nội dung thông tin và không gây khó chịu bởi nhiễu đối với người nghe. Vì vậy, Speech Enhancement đóng một vai trò rất quan trọng trong lĩnh vực thoại. Xuất phát từ thực tế này nhóm đã bắt tay vào tìm hiểu về Speech Enhancement, nghiên cứu các thuật toán của nó để thực hiện và đánh giá hiệu quả của các thuật toán đó trong môi trường thực tế. Để thực hiện được đồ án, nhóm đã phân chia thành 3 phần tương ứng với 3 thành viên : - Nguyễn Ngọc Trung : nghiên cứu và thực hiện thuật toán xửlýtiếngnói sử dụng phương pháp Spectral Subtraction. - Nguyễn Phúc Nguyên : nghiên cứu và thực hiện thuật xửlýtiếngnói sử dụng bộ lọc Wiener. - Nguyễn Thị Ngọc Diệp : nghiên cứu và thực hiện các phương pháp đánh giá từ các kết quả đạt được của 2 thuật toán trên trong môi trường thực tế. Để thực hiện được nội dung phần của em thì đồán của em được kết cấu thành 2 phần, gồm 5 chương : Phần 1 : Lý thuyết Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói. Chương này giới thiệu một số khái niệm cơ bản về tín hiệu số, các phép biến đổi, tìm hiểu về các loại nhiễu , tín hiệu tiếngnói và sự hình thành tiếng nói. Bên cạnh đó còn giới thiệu khái quát về một số thuật toán trong Speech Enhancement . Chương 2 : Đánh giá chất lượng tiếng nói. Chương này giới thiệu một số phương pháp đánh giá hiệu quả của thuật toán giảm nhiễu trong tiếng nói. Gồm có đánh giá chủ quan và đánh giá khách quan. Chương 3 : Thuật toán Spectral Subtraction và Wiener Filtering. Chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán. Phần 2 : Thực hiện và đánh giá Chương 4 : Thực hiện và đánh giá thuật toán. Chương này trình bày các kết quả nhóm đã làm được gồm có thực hiện giảm nhiễu tín hiệu tiếngnói bằng hai SVTH: Nguyễn Thị Ngọc Diệp Trang 7 7 Đồántốtnghiệp thuật toán đã nghiên cứu ở chương 3. Đồng thời so sánh kết quả thu được bằng cách dùng các phương pháp đánh giá đã được giới thiệu ở chương 2 Phương pháp nghiên cứu của đồán là xây dựng lưu đồ của thuật toán, thực hiện xửlýtiếngnói bằng các thuật toán đó. Dựa trên các kết quả đạt được sau khi xử lý, sau đó sử dụng các phương pháp đánh giá khách quan để đánh giá tính hiệu quả của các thuật toán xửlý trong môi trường thực tế. Đồán của nhóm đã thực hiện được 2 thuật toán xửlýtiếngnói trong Speech Enhancement và đưa ra được các kết quả đánh giá khách quan làm cơ sở để đánh giá tính hiệu quả của 2 thuật toán trên. Đó chính là điểm mới trong đồán của nhóm so với các đồán đã có trước trong cùng chủ đề nghiên cứu. SVTH: Nguyễn Thị Ngọc Diệp Trang 8 8 Đồántốtnghiệp SVTH: Nguyễn Thị Ngọc Diệp Trang 9 9 Chương 1 : Tổng quan về nâng cao chất lượng tiếngnói CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNGNÓI 1.1 Giới thiệu chương Nội dung của chương trình bày mục đích của nâng cao chất lượng tiếngnói là gì, các loại nhiễu trong tiếng nói, cách hình thành của tiếngnói và các đặc điểm cuả tín hiệu tiếng nói. Chương này còn giới thiệu khái quát về các thuật toán sử dụng trong speech enhancement. 1.2 Nâng cao chất lượng tiếngnói là gì ? Nâng cao chất lượng tiếngnói liên quan đến việc cải thiện cảm nhận đối với tiếngnói bị suy giảm chất lượng do sự có mặt của nhiễu trong tiếng nói. Trong hầu hết các ứng dụng, thì mục đích của nâng cao chất lượng tiếngnói là sự cải thiện chất lượng và tính dễ nghe của tiếngnói đã bị suy giảm do nhiễu. Sự cải thiện về chất lượng mà tốt thì nó làm giảm đi sự khó khăn cho người nghe khi nghe và trong nhiều trường hợp nó còn giúp cho người nghe có thể nghe trong môi trường có nhiễu với mức độ cao và nhiễu đó tồn tại trong thời gian dài. Các thuật toán âng cao chất lượng tiếngnói làm giảm và nén nhiễu nền đến một mức độ nào đó và nó được xem như là các thuật toán nén nhiễu. Trong nhiều trường hợp, sự cần thiết của việc tăng cường trong tín hiệu tiếngnói xuất hiện khi tín hiệu tiếngnói hình thành trong vùng có nhiễu hoặc ảnh hưởng bởi nhiễu trong các kênh truyền thông. Có rất nhiều kịch bản yêu cầu đặt ra đối với Speech enhancement trong nhiều trường hợp khác nhau, ví dụ đối với thông tin thoại, trên các hệ thống điện thoại tế bào thì chịu sự ảnh hưởng nhiễu nền từ ô tô, nhà hàng, khi truyền đến đích. Chính vì vậy mà các thuật toán trong nâng cao chất lượng tiếngnói có thể được sử dụng để cải thiện chất lượng của tiếngnói tại điểm thu, mặt khác, nó có thể được sử dụng trong các khối tiền xửlý của hệ thống mã hoá tiếngnói dùng trong các điện thoại tế bào chuẩn [1]. Khi nhận dạng tiếng nói, tiếngnói bị nhiễu được tiền xửlý bởi các thuật toán nâng cao chất lượng trước khi được nhận dạng. Trong thông tin liên lạc hàng không, các kỹ thuật nâng cao tiếngnói cần được sử dụng để cải thiện chất lượng và tính dễ nghe của tiếngnói của phi công bị ảnh hưởng bởi nhiễu trong buồng lái. Vì SVTH: Nguyễn Thị Ngọc Diệp Trang 10 [...]... pháp đánh giá chất lượng của tiếngnói đã được xửlý 1.12 Phương pháp đánh giá chủ quan Đánh giá chất lượng chủ quan là đánh giá chất lượng dựa trên cảm nhận nghe của con người đối với tiếngnói Chất lượng là một trong các thuộc tính của tín hiệu tiếngnói Về bản chất thì chất lượng có tính chủ quan cao và khó có thể đánh giá một cách đáng tin cậy.Nó chỉ đóng vai trò phần nào trong kỹ thuật đánh giá... hệ thống, nó không chỉ đơn thuần là thiết bị vật lý mà còn là phần mềm xửlý tín hiệu hoặc là sự kết hợp giữa phần cứng và phần mềm Ví dụ khi xửlý số tín hiệu bằng mạch logic, hệ thống xửlý ở đây là phần cứng Khi xửlý bằng máy tính số, tác động lên tín hiệu bao gồm một loạt các phép toán thực hiện bởi chương trình phần mềm Khi xửlý bằng các bộ vi xử lý- hệ thống bao gồm kết hợp cả phần cứng và phần... và là một phương pháp đánh giá khách quan có tính tương quan cao với đánh giá theo cảm nhận của người nghe 1.14 Kết luận chương Chương này đã trình bày một số phương pháp đánh giá chất lượng tiếngnói sau khi xửlý giảm nhiễu bằng các thuật toán tăng cường tiếngnói Các đánh giá SE được giới thiệu gồm có các phương pháp đánh giá tuyệt đối và đánh giá tương đối Các phương pháp đánh giá OE được trình... được tìm thấy trong tiếngnói trôi chảy với sự thay đổi về cường độ, khoảng thời gian và đặc tính phổ SVTH: Nguyễn Thị Ngọc Diệp Trang 23 Chương 1 : Tổng quan về nâng cao chất lượng tiếngnói 1.9 Cơ chế tạo tiếngnói 1.9.1.1 Bộ máy phát âm của con người Hình 1.8 mặt cắt dọc của cơ quan tạo tiếngnói [11] 1.9.2 Mô hình kỹ thuật của việc tạo tiếngnói Hình 1.9 mô hình kỹ thuật tạo tiếng nói[ 11] SVTH: Nguyễn... 1 : Tổng quan về nâng cao chất lượng tiếngnói vậy mà nâng cao chất lượng tiếngnói cũng rất cần thiết trong thông tin liên lạc của quân sự Trong hệ thống hội nghị qua thoại, thì nguồn nhiễu xuất hiện ở một vùng nào đó thì nó sẽ được truyền đến tất cả các vùng khác Các thuật toán nâng cao chất lượng tiếngnói được sử dụng như tiền xửlý hoặc làm sạch nhiễu trong tiếng trước khi được khuếch đại Như các... mang lại một sự tương quan lớn (ρ=0.74) hơn đánh giá LPC, với sự đánh giá chất lượng chủ quan của tiếngnói bị giảm chất lượng bởi sự mã hóa[20] 1.13.3.2 Phương pháp đo Bark Distortion Phương pháp đánh giá WSS là bước đầu làm mẫu cho việc làm thế nào để con người nhận biết được tiếng nói, đặc biệt là nguyên âm Các phương pháp đánh giá sau này càng dựa vào sự xửlý âm thanh của tai người, cách mà thính... hiệu tiếngnói đã bị nhiễu Ngoài ra, nội dung của chương cũng đã nêu rõ được các loại nhiễu xuất hiện trong từng môi trường cụ thể để từ đó chúng ta có tìm ra được thuật toán xửlý thích hợp ứng với mỗi trường hợp cụ thể SVTH: Nguyễn Thị Ngọc Diệp Trang 25 Chương 2 : Đánh giá chất lượng tiếngnói CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI 1.11 Giới thiệu chương Cho đến nay đã có rất nhiều thuật toán... CHẤT LƯỢNG TIẾNG NÓI 1.11 Giới thiệu chương Cho đến nay đã có rất nhiều thuật toán nâng cao chất lượng tiếng nói, nhưng làm thế nào để đánh giá đúng hiệu quả của chúng Phần này cung cấp các phương pháp đánh giá khác nhau được sử dụng để đánh giá hiệu quả của thuật toán nâng cao tiếngnói Đánh giá chất lượng có thể thực hiện bằng cách sử dụng phương pháp đánh giá theo cảm nhận của người nghe... thuật toán tăng cường tuỳ thuộc vào các ứng dụng mà chúng ta đang dùng Xét trên phương diện lý tưởng, thì chúng ta mong muốn Speech enhancement cải thiện được cả chất lượng và tính dễ nghe hay sự trong suốt của tiếngnói Tuy nhiên, xét trên phương diện thực tế thì các thuật toán Speech enhancement chỉ có thể cải thiện được chất lượng của tiếngnói Nó có thể làm giảm được nhiễu nền trong tiếngnói nhưng... những tiêu chuẩn riêng về chất lượng tốt hay “xấu”, chất lượng là kết quả của sự cảm nhận và phán đoán chủ quan của người nghe, dẫn đến sự chênh lệch lớn trong kết quả đánh giá Chất lượng có rất nhiều chỉ tiêu không thể đếm hết được Tùy vào các mục đích thực tế và tùy vào mỗi ứng dụng mà chỉ tập trung vào một số chỉ tiêu chất lượng tiếngnói Đánh giá chất lượng tiếngnói là một công việc đầy khó khăn . ĐỒ ÁN TỐT NGHIỆP ĐỀ TÀI XỬ LÝ TIẾNG NÓI SVTH: NGUYỄN THỊ NGỌC DIỆP CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc Đồ án tốt nghiệp LỜI CAM ĐOAN Kính gửi: Hội đồng bảo vệ đồ án. Trang 2 2 Đồ án tốt nghiệp CHƯƠNG 4: THỰC HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN 48 KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 68 PHỤ LỤC 69 DANH MỤC CÁC HÌNH VẼ VÀ BẢNG Hình 1.1 Tín hiệu tiếng nói [2]. xử lý tiếng nói bằng các thuật toán đó. Dựa trên các kết quả đạt được sau khi xử lý, sau đó sử dụng các phương pháp đánh giá khách quan để đánh giá tính hiệu quả của các thuật toán xử lý trong