Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
3,46 MB
Nội dung
Đồ án tốt nghiệp Luận văn Đề tài: "Tìm hiểu về Speech Enhancement" SVTH: Nguyễn Thị Ngọc Diệp Trang 1 Đồ án tốt nghiệp CỘNG HÒA Xà HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc LỜI CAM ĐOAN Kính gửi: Hội đồng bảo vệ đồ án tốt nghiệp Khoa Điện tử _ Viễn thông _ Trường Đại học Bách Khoa Đà Nẵng. Em tên là: Nguyễn Thị Ngọc Diệp Hiện đang học lớp 04ĐT1- Khoa: Điện tử - Viễn thông – Trường: Đại học Bách Khoa Đà Nẵng. Nhóm em xin cam đoan nội dung của đồ án này không phải là bản sao chép của bất cứ đồ án hoặc công trình đã có từ trước. Sinh viên thực hiện Nguyễn Thị Ngọc Diệp MỤC LỤC LỜI CAM ĐOAN 2 MỤC LỤC 2 DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH 5 MỞ ĐẦU 6 CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI 10 CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI 26 SVTH: Nguyễn Thị Ngọc Diệp Trang 2 Đồ án tốt nghiệp CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER FILTERING 36 CHƯƠNG 4: THỰC HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN 47 KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 67 PHỤ LỤC 68 DANH MỤC CÁC HÌNH VẼ VÀ BẢNG Hình 1.1 Tín hiệu tiếng nói [2] 12 Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [4] 14 Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu [4]. 15 Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà hàng[4] 15 Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường khác nhau [4] 17 Hình 1.6 Mẫu tiếng nói “eee” được lấy mẫu với tần số lấy mẫu 8kHz [11] 22 Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her husband” và dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er” trong từ “her” [11] 23 Hình 1.8 mặt cắt dọc của cơ quan tạo tiếng nói [11] 24 Hình 1.9 mô hình kỹ thuật tạo tiếng nói[11] 24 Hình 1.10 bảng phân loại âm vị trong tiếng Anh của người Mỹ [11] 25 Bảng 2.1.Thang điŒm đánh giá chất lượng tiếng nói theo MOS [12] 27 Bảng 2.4. Thang điŒm đánh giá chất lượng tín hiệu tiếng nói theo CCR 28 Bảng 2.5. Thang đánh giá DCR 28 Hình 3.1 Sơ đồ khối cho hai thuật toán SS và WF 36 SVTH: Nguyễn Thị Ngọc Diệp Trang 3 Đồ án tốt nghiệp Hình 3.2 Sơ đồ khối của thuật toán Spectral subtraction [26] 40 Hình 3.3 Sơ đồ khối của thuật toán Wiener Filtering 42 Hình 3.4 Phân tích tín hiệu thành các frame [31] 43 Hình 3.5 quá trình thực hiện overlap và adding [32] 44 Hình 4.1. Sơ đồ thực hiện và đánh giá thuật toán tăng cường 47 Hình 4.2 Lưu đồ thuật toán SS 49 Hình 4.3 Lưu đồ thuật toán WF 50 Hình 4.4 dạng sóng và spectrogram của tín hiệu sạch 51 Hình 4.5 Dạng sóng và phổ của tín hiệu bị nhiễu xe hơi với SNR = 10dB 51 Hình 4.6 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơi bằng SS với SNR = 10dB 52 Hình 4.7 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơi bằng WF với SNR = 10dB 52 Hình 4.8 Quy trình thực hiện đánh giá 54 Hình 4.9. Đồ thị kiŒm tra độ ổn định của đánh giá OE đối với nhiễu xe hơi 54 Hình 4.10. Đồ thị kiŒm tra độ ổn định của đánh giá OE đối với nhiễu người nói xung quanh 55 Hình 4.11 Đồ thị đánh giá Objective với hệ số IS=0.2, NoiseMargin=3 56 Hình 4.12 Đồ thị đánh giá Objective với hệ số IS=0.15, NoiseMargin=2 58 Hình 4.14 Đồ thị đánh giá objective với hệ số alpha=0.5, 0.8,0.9 với IS=0.15 và NoiseMargin = 2 59 Hình 4.15 Đồ thị đánh giá objective với hệ số gamma = 1 và gamma = 2 61 Hình 4.16 Đồ thị đánh giá với IS=0.15 NoiMargin= 2 và alpha = 0.8 cho thuật toán WF, gama=1 cho thuật toán SS 62 Hình 4.17 Đồ thị đánh giá OE với nhiễu người nói xung quanh 63 SVTH: Nguyễn Thị Ngọc Diệp Trang 4 Đồ án tốt nghiệp DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH Từ viết tắt Tiếng Anh Nghĩa tiếng Việt SNR Signal Noise Ratio Tỉ số tín hiệu trên nhiễu PC Personal Computer Máy tính cá nhân SPL Sound Pressure Level Mức áp suất của âm thanh MMSE Minium Mean-Squared Error Tối thiŒu hoá sai lệch trung bình bình phương SVD Singular Value Decomposition Phép phân tích giá trị đơn DFT Discrete Fourier Transform Phép biến đổi Fourier rời rạc FFT Fast Fourier Transform Phép biến đổi Fourier nhanh DTFT Discrete-Time Fourier Transform Phép biến đổi Fourier của tín hiệu rời rạc. ZT Z Transform Phép biến đổi Z ROC Region of Convergence Miền hội tụ IDTFT Inverse Discrete Fourier Transform Phép biến đổi ngược Fourier rời rạc LTI Linear Time-Invariant Hệ thống tuyến tính và bất biến theo thời gian ITU-T InternationalTelecommunication s Union-Telecommunication Hiệp hội tiêu chuẩn viễn thông quốc tế ACR Absolute Categories Rating Đánh giá theo giá trị tuyệt đối MOS Mean Opinion Scores Đánh giá theo quan điŒm SVTH: Nguyễn Thị Ngọc Diệp Trang 5 Đồ án tốt nghiệp người nghe CCR Comparison Category Rating Đánh giá bằng cách so sánh DCR Degradation Category Rating Đánh giá suy giảm chất lượng SE Subjective Evaluation Đánh giá chủ quan OE Objective Evaluation Đánh giá khách quan IS Itakura_Saito LLR Log likehook Raito WSS Weighted Spectral Slope Đo theo trọng số của phổ LPC Linear Prediction Coefficients Hệ số dự đoán tuyến tính VAD Voice Activity Detection Thăm dò sự hoạt động của tiếng nói Speech Enhancement Nâng cao chất lượng tiếng nói SS Spectral Subtraction Thuật toán giảm nhiễu tín hiệu tiếng nói bằng phương pháp trừ phổ. WF Wiener Filter Thuật toán giảm nhiễu tín hiệu tiếng nói bằng cách sử dụng bộ lọc Wiener. Statistical-model-based Thuật toán giảm nhiễu tín hiệu tiếng nói dựa trên nguyên lý thống kê Frame Khung tín hiệu. Hamming Cửa sổ Hamming Overlap và Adding Xếp chồng và cộng MỞ ĐẦU Trong cuộc sống, tiếng nói đóng một vai trò rất quan trọng đối với con người. Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ thoại như ngày nay. Tuy nhiên việc bảo toàn được tín hiệu tiếng nói trên các dịch vụ này là SVTH: Nguyễn Thị Ngọc Diệp Trang 6 Đồ án tốt nghiệp điều vô cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh hưởng của nhiễu sẽ làm cho tín hiệu tiếng nói không còn như ban đầu. Vì lý do đó mà các thuật toán về Speech Enhancement ra đời. Tuy không thŒ bảo toàn được y nguyên tín hiệu ban đầu nhưng sử dụng các thuật toán này ta có thŒ tăng cường được chất lượng tiếng nói và giảm bớt nhiễu nền đŒ tín hiệu sau khi xử lý đến người nghe vẫn mang đầy đủ nội dung thông tin và không gây khó chịu bởi nhiễu đối với người nghe. Vì vậy, Speech Enhancement đóng một vai trò rất quan trọng trong lĩnh vực thoại. Xuất phát từ thực tế này nhóm đã bắt tay vào tìm hiŒu về Speech Enhancement, nghiên cứu các thuật toán của nó đŒ thực hiện và đánh giá hiệu quả của các thuật toán đó trong môi trường thực tế. ĐŒ thực hiện được đồ án, nhóm đã phân chia thành 3 phần tương ứng với 3 thành viên : - : nghiên cứu và thực hiện thuật toán xử lý tiếng nói sử dụng phương pháp Spectral Subtraction. - : nghiên cứu và thực hiện thuật xử lý tiếng nói sử dụng bộ lọc Wiener. - : nghiên cứu và thực hiện các phương pháp đánh giá từ các kết quả đạt được của 2 thuật toán trên trong môi trường thực tế. ĐŒ thực hiện được nội dung phần của em thì đồ án của em được kết cấu thành 2 phần, gồm 5 chương : Phần 1 : Lý thuyết Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói. Chương này giới thiệu một số khái niệm cơ bản về tín hiệu số, các phép biến đổi, tìm hiŒu về các loại nhiễu , tín hiệu tiếng nói và sự hình thành tiếng nói. Bên cạnh đó còn giới thiệu khái quát về một số thuật toán trong Speech Enhancement . Chương 2 : Đánh giá chất lượng tiếng nói. Chương này giới thiệu một số phương pháp đánh giá hiệu quả của thuật toán giảm nhiễu trong tiếng nói. Gồm có đánh giá chủ quan và đánh giá khách quan. Chương 3 : Thuật toán Spectral Subtraction và Wiener Filtering. Chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán. Phần 2 : Thực hiện và đánh giá SVTH: Nguyễn Thị Ngọc Diệp Trang 7 Đồ án tốt nghiệp Chương 4 : Thực hiện và đánh giá thuật toán. Chương này trình bày các kết quả nhóm đã làm được gồm có thực hiện giảm nhiễu tín hiệu tiếng nói bằng hai thuật toán đã nghiên cứu ở chương 3. Đồng thời so sánh kết quả thu được bằng cách dùng các phương pháp đánh giá đã được giới thiệu ở chương 2 Phương pháp nghiên cứu của đồ án là xây dựng lưu đồ của thuật toán, thực hiện xử lý tiếng nói bằng các thuật toán đó. Dựa trên các kết quả đạt được sau khi xử lý, sau đó sử dụng các phương pháp đánh giá khách quan đŒ đánh giá tính hiệu quả của các thuật toán xử lý trong môi trường thực tế. Đồ án của nhóm đã thực hiện được 2 thuật toán xử lý tiếng nói trong Speech Enhancement và đưa ra được các kết quả đánh giá khách quan làm cơ sở đŒ đánh giá tính hiệu quả của 2 thuật toán trên. Đó chính là điŒm mới trong đồ án của nhóm so với các đồ án đã có trước trong cùng chủ đề nghiên cứu. SVTH: Nguyễn Thị Ngọc Diệp Trang 8 Đồ án tốt nghiệp SVTH: Nguyễn Thị Ngọc Diệp Trang 9 Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI 1.1 Giới thiệu chương Nội dung của chương trình bày mục đích của nâng cao chất lượng tiếng nói là gì, các loại nhiễu trong tiếng nói, cách hình thành của tiếng nói và các đặc điŒm cuả tín hiệu tiếng nói. Chương này còn giới thiệu khái quát về các thuật toán sử dụng trong speech enhancement. 1.2 Nâng cao chất lượng tiếng nói là gì ? Nâng cao chất lượng tiếng nói liên quan đến việc cải thiện cảm nhận đối với tiếng nói bị suy giảm chất lượng do sự có mặt của nhiễu trong tiếng nói. Trong hầu hết các ứng dụng, thì mục đích của nâng cao chất lượng tiếng nói là sự cải thiện chất lượng và tính dễ nghe của tiếng nói đã bị suy giảm do nhiễu. Sự cải thiện về chất lượng mà tốt thì nó làm giảm đi sự khó khăn cho người nghe khi nghe và trong nhiều trường hợp nó còn giúp cho người nghe có thŒ nghe trong môi trường có nhiễu với mức độ cao và nhiễu đó tồn tại trong thời gian dài. Các thuật toán âng cao chất lượng tiếng nói làm giảm và nén nhiễu nền đến một mức độ nào đó và nó được xem như là các thuật toán nén nhiễu. Trong nhiều trường hợp, sự cần thiết của việc tăng cường trong tín hiệu tiếng nói xuất hiện khi tín hiệu tiếng nói hình thành trong vùng có nhiễu hoặc ảnh hưởng bởi nhiễu trong các kênh truyền thông. Có rất nhiều kịch bản yêu cầu đặt ra đối với Speech enhancement trong nhiều trường hợp khác nhau, ví dụ đối với thông tin thoại, trên các hệ thống điện thoại tế bào thì chịu sự ảnh hưởng nhiễu nền từ ô tô, nhà hàng, khi truyền đến đích. Chính vì vậy mà các thuật toán trong nâng cao chất lượng tiếng nói có thŒ được sử dụng đŒ cải thiện chất lượng của tiếng nói tại điŒm thu, mặt khác, nó có thŒ được sử dụng trong các khối tiền xử lý của hệ thống mã hoá tiếng nói dùng trong các điện thoại tế bào chuẩn [1]. Khi nhận dạng tiếng nói, tiếng nói bị nhiễu được tiền xử lý bởi các thuật toán nâng cao chất lượng trước khi được nhận dạng. Trong thông tin liên lạc hàng không, các kỹ thuật nâng cao tiếng nói cần được sử dụng đŒ cải thiện chất lượng và tính dễ nghe của tiếng nói của phi công bị ảnh hưởng bởi nhiễu trong buồng lái. Vì SVTH: Nguyễn Thị Ngọc Diệp Trang 10 [...]... nhiễu có thể có tính tương quan hoặc không tương quan về mặt thống kê với tín hiệu sạch Số lượng microphone cũng có khả năng ảnh hưởng đến tính hiệu quả của các thuật toán Speech enhancement 1.3 Lý thuyết về tín hiệu và nhiễu 1.3.1 Tín hiệu, hệ thống và xử lý tín hiệu 1.3.1.1 Tín hiệu Tín hiệu(signal) dùng để chỉ một đại lượng vật lý mang tin tức Về mặt toán học, ta có thể mô tả tín hiệu như một hàm... đề này ảnh hưởng rất lớn đến quá trình xử lý 1.16 Sơ đồ khối chung của Spectral Subtraction và Wiener Filtering Trong đồ án này, chúng tôi đã dựa trên các cở sở lý thuyết của các thuật toán đã có trong speech enhancement, và đã lựa chọn ra 2 thuật toán đó là : Spectral subtraction và Wiener filter để sử dụng làm thuật toán xử lý triệt nhiễu Sơ đồ khối chung cho cả 2 thuật toán : Phân tích tín hiệu... đổi về cường độ, khoảng thời gian và đặc tính phổ SVTH: Nguyễn Thị Ngọc Diệp Trang 23 Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói 1.9 Cơ chế tạo tiếng nói 1.9.1.1 Bộ máy phát âm của con người Hình 1.8 mặt cắt dọc của cơ quan tạo tiếng nói [11] 1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói Hình 1.9 mô hình kỹ thuật tạo tiếng nói[11] SVTH: Nguyễn Thị Ngọc Diệp Trang 24 Chương 1 : Tổng quan về. .. Ngọc Diệp Trang 11 Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói biến độc lập khác Chẳng hạn như, hàm: x(t) = 20t 2 mô tả tín hiệu biến thiên theo biến thời gian t Hay một ví dụ khác, hàm: s(x,y) = 3x + 5xy + y 2 mô tả tín hiệu là hàm theo hai biến độc lập x và y, trong đó x và y biểu diễn cho hai tọa độ trong mặt phẳng [2] Hai tín hiệu trong ví dụ trên về lớp tín hiệu được biểu diễn chính... định và tín hiệu ngẫu nhiên 1.4 Lý thuyết về nhiễu 1.4.1 Nguồn nhiễu Nhiễu một hiện thực, nó tồn tại ở mọi nơi, trên đường phố, trên xe, trong văn phòng, trong nhà hàng, trong các toà nhà Nó có thể là tiếng xe chạy trên đường, tiếng ồn trên các công trường xây dựng, tiếng ồn phát ra từ các quạt chạy SVTH: Nguyễn Thị Ngọc Diệp Trang 13 Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói trong PC,... bình nhiễu trên xe [4] SVTH: Nguyễn Thị Ngọc Diệp Trang 14 Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu [4] Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà hàng[4] SVTH: Nguyễn Thị Ngọc Diệp Trang 15 Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói 1.4.2 Nhiễu và mức tín hiệu tiếng nói trong... tới hạn trong việc thiết kế các thuật toán của Speech enhancement là sự nhận biết dải biến thiên của tiếng nói và mức độ cường độ nhiễu trong môi trường thực tế Từ đó, chúng ta có thể mô tả miền biến thiên của mức độ tỷ số tín hiệu trên nhiễu(SNR) được bắt gặp trong môi trường thực tế Điều này rất quan trọng để đánh giá tính hiệu quả của các thuật toán Speech enhancement trong việc nén nhiễu và cải... hiệu tiếng nói, chính điều này làm giảm đi tính dễ nghe của tiếng nói Do đó, yêu cầu chính trong việc thiết kế một thuật toán Speech enhancement phải đảm bảo nén được nhiễu và không được gây ra méo trong sự cảm nhận tín hiệu tiếng nói Giải pháp tổng quát trong các vẩn đề của Speech enhancement phụ thuộc rất lớn vào ứng dụng chúng ta cần sử dụng, đó là các vần đề như là nguồn nhiễu và giao thoa gây ra... biểu diễn cho thông tin về mặt ngôn ngữ và được thể hiện bằng các âm vị khác nhau Số lượng các âm vị tuỳ thuộc vào từng ngôn ngữ, vào khoảng 20 đến 30 và không vượt quá 50 Đối với từng loại âm vị nó có đặc tính âm thanh khác nhau.Tổ hợp các âm vị tạo nên âm tiết Âm tiết đóng vai trò một từ trọn vẹn mang ngữ nghĩa 1.10 Kết luận chương Chương này đã trình bày được mục đích chính của speech enhancement là... cảm nhận của người nghe Phần này sẽ cung cấp một cái nhìn tổng quan về các phương pháp đánh giá chất lượng của tiếng nói đã được xử lý 1.12 Phương pháp đánh giá chủ quan Đánh giá chất lượng chủ quan là đánh giá chất lượng dựa trên cảm nhận nghe của con người đối với tiếng nói Chất lượng là một trong các thuộc tính của tín hiệu tiếng nói Về bản chất thì chất lượng có tính chủ quan cao và khó có thể đánh . Đồ án tốt nghiệp Luận văn Đề tài: "Tìm hiểu về Speech Enhancement" SVTH: Nguyễn Thị Ngọc Diệp Trang 1 Đồ án tốt nghiệp CỘNG HÒA Xà HỘI CHỦ NGHĨA. 28 Hình 3.1 Sơ đồ khối cho hai thuật toán SS và WF 36 SVTH: Nguyễn Thị Ngọc Diệp Trang 3 Đồ án tốt nghiệp Hình 3.2 Sơ đồ khối của thuật toán Spectral subtraction [26] 40 Hình 3.3 Sơ đồ khối của. trong đồ án của nhóm so với các đồ án đã có trước trong cùng chủ đề nghiên cứu. SVTH: Nguyễn Thị Ngọc Diệp Trang 8 Đồ án tốt nghiệp SVTH: Nguyễn Thị Ngọc Diệp Trang 9 Chương 1 : Tổng quan về nâng