1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy thống kê bằng mô hình pha trộn gaussian

68 514 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 68
Dung lượng 1,1 MB

Nội dung

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG TRỊNH THỊ THỦY PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI CÓ NHIỄU DÙNG HỌC MÁY THỐNG KÊ BẰNG MÔ HÌNH PHA TRỘN GAUSSIAN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2016 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG TRỊNH THỊ THỦY PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI CÓ NHIỄU DÙNG HỌC MÁY THỐNG KÊ BẰNG MÔ HÌNH PHA TRỘN GAUSSIAN Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS PHÙNG TRUNG NGHĨA THÁI NGUYÊN - 2016 i LỜI CAM ĐOAN Tên là: Trịnh Thị Thủy Sinh ngày: 27/07/1985 Học viên lớp cao học K13A – Trường Đại học Công nghệ thông tin Truyền thông – Đại học Thái Nguyên Tôi xin cam đoan, toàn nội dung liên quan tới đề tài trình bày luận văn thân tìm hiểu nghiên cứu, hướng dẫn khoa học thầy giáo TS Phùng Trung Nghĩa Các nội dung luận văn nội dung đề cương yêu cầu thầy giáo hướng dẫn Tất tài liệu tham khảo có nguồn gốc, xuất xứ rõ ràng Nếu sai hoàn toàn chịu tránh nhiệm trước hội đồng khoa học trước pháp luật Tác giả luận văn Trịnh Thị Thủy ii LỜI CẢM ƠN Lời em xin chân thành cảm ơn TS Phùng Trung Nghĩa, người trực tiếp hướng dẫn em hoàn thành luận văn Trong suốt thời gian làm luận văn thầy dành nhiều thời gian quý báu để tận tình bảo, hướng dẫn, định hướng cho em việc nghiên cứu lời động viên thầy giúp em vượt qua nhiều khó khăn trình thực luận văn Em xin bày tỏ lòng biết ơn chân thành đến Ban giám hiệu, Phòng sau đại học, thầy cô giáo Trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên tận tình giảng dạy truyền đạt cho em kiến thức, kinh nghiệm quý báu suốt năm học vừa qua Cuối xin chân thành cảm ơn gia đình, người thân, bạn bè, đồng nghiệp…, hết lòng giúp đỡ, tạo điều kiện cho suốt trình học tập hoàn thành luận văn Trong khoảng thời gian có hạn, kiến thức nhiều hạn chế nên luận văn không tránh khỏi thiếu sót Rất mong nhận ý kiến đóng góp quý báu thầy cô, bạn bè đồng nghiệp Thái Nguyên, ngày 15 tháng 04 năm 2016 Tác giả Trịnh Thị Thuỷ iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN .i MỤC LỤC iii DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ vii DANH MỤC BẢNG ix MỞ ĐẦU 1 Lý chọn đề tài Mục tiêu đề tài Đối tượng phạm vi nghiên cứu: Phương pháp nghiên cứu Ý nghĩa khoa học thực tiễn CHƯƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ XỬ LÝ NHIỄU TRONG TIẾNG NÓI 1.1 Tổng quan tiếng nói 1.1.1 Thông tin tiếng nói 1.1.2 Tín hiệu tín hiệu tiếng nói 1.1.2.1 Tín hiệu tiếng nói 1.1.2.2 Tín hiệu 1.1.3 Quá trình tạo tiếng nói 1.1.4 Cơ quan thính giác 11 1.2 Nhiễu tiếng nói 14 1.2.1 Nguồn nhiễu 14 1.2.2 Nhiễu mức tín hiệu tiếng nói môi trường khác 16 1.2.3 Mô hình hóa tiếng nói 17 1.3 Xử lý nhiễu tiếng nói 20 1.3.1 Cách tiếp cận không dùng học máy 20 iv 1.3.2 Cách tiếp cận dùng học máy 20 CHƯƠNG II: PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI CÓ NHIỄU PHỨC HỢP BẰNG HỌC MÁY DÙNG MÔ HÌNH PHA TRỘN GAUSSIAN 21 2.1 Phương pháp nâng cao chất lượng tiếng nói có nhiễu kinh điển dùng kỹ thuật trừ phổ 21 2.1.1 Thuật toán trừ phổ phổ biên độ 21 2.1.2 Thuật toántrừ phổ phổ công suất 22 2.1.3 Ưu nhược điểm phương pháp 25 2.2 Phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy GMM 25 2.2.1 Phân bố Gauss 25 2.2.2 Mô hình Gaussian hỗn hợp 26 2.2.3 Mô hình dự đoán tuyến tính (LP) kĩ thuật nâng cao chất lượng tiếng nói có nhiễu 28 2.2.4 Phổ đường cảm thụ (PLSF) 30 2.2.5 Biến đổi phổ sử dụng mô hình GMM 32 CHƯƠNG III: ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI 36 3.1 Ngữ âm tiếng Việt 36 3.2 Cơ sở liệu tiếng nói tiếng Việt 39 3.3 Lựa chọn sở liệu 42 3.4 Cài đặt phương pháp 42 3.4.1 Phương pháp trừ phổ 42 3.4.2 Phương pháp biến đổi sử dụng học máy thống kê GMM 43 3.5 Đánh giá kết thực nghiệm 45 3.5.1 Tiêu chí đánh giá chủ quan 46 3.5.2 Tiêu chí đánh giá khách quan 47 3.5.3 Kết đánh giá thực nghiệm 48 3.6 Nhận xét chung kết 49 v KẾT LUẬN 50 TÀI LIỆU THAM KHẢO 51 vi DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt GMM Viết đầy đủ Ý nghĩa Gaussian model mixture Mô hình Gaussian hỗn hợp LP Linear Preditive Phương pháp dự đoán tuyến tính SS Spectral subtraction Trừ phổ EM Expectation Maximization Lặp cực đại kỳ vọng LPC Linear predictive coding Mã hóa dự đoán tuyến tính PLP Perceptual Linear Preditive Dự đoán tuyến tính cảm thụ LSF Line Spectral Frequency Ðặc trưng phổ đường NN Neural Network Mạng nơron F0 Fundamental Frequency Tần số dao động SS Spectral subtraction Trừ phổ 40 a Cơ sở liệu số điện thoại Cơ sở liệu tiếng nói xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam [25] Định dạng âm PCM WAV với tần số lấy mẫu tần số lấy mẫu hệ thống điện thoại công cộng PSTN 8KHz Mã hóa 16 bit / mẫu Kích cỡ sở liệu nhỏ với 1541 từ mô tả số điện thoại Phần đầu bao gồm 170 người nói với 94 đàn ông 76 phụ nữ đến từ địa phương khác khu vực miền Bắc Phần hai gồm 208 người nói bao gồm 130 đàn ông 78 phụ nữ đến từ địa phương khu vực miền Nam Cơ sở liệu gán nhãn mức âm vị b Cơ sở liệu tiếng nói phát VOV Bộ sở liệu xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam [25] Bộ sở liệu gồm câu chuyện, báo cáo, tin,… Đài tiếng nói Việt Nam VOV phát sưu tập từ 15 người nói giọng Hà Nội chuẩn Âm dạng RealAudio sưu tập từ website VOV chuyển đổi dạng âm PCM WAV với tốc độ bit 256 kbps, tần số lấy mẫu 16 KHz Bộ sở liệu bao gồm 29062 câu với độ dài trung bình 10 âm tiết Số lượng âm tiết phân biệt 4379 số lượng âm tiết phân biệt không tính điệu 1646 bao phủ gần toàn âm tiết tiếng Việt Kích cỡ sở liệu khoảng 2.5 GB Bộ sở liệu lựa chọn cân người nói phiên gán nhãn tay mức âm tiết Mặc dù sở liệu lớn, việc sử dụng sở liệu cho nghiên cứu khó khăn chưa có nhãn gán mức âm vị c Cơ sở liệu DEMEN567 Bộ sở liệu xây dựng Viện Công nghệ thông 41 tin, Viện hàn lâm, khoa học công nghệ Việt Nam [25] Kịch văn trích từ câu chuyện Dế mèn phiêu lưu ký tiếng Người nói nữ phát viên giọng Hà Nội chuẩn Tiếng nói ghi âm dạng PCM WAV, tần số lấy mẫu 11025 Hz, mã hóa 16 bit / mẫu Cơ sở liệu bao gồm 567 câu với độ dài câu khoảng 15 âm tiết Kích cỡ sở liệu vào khoảng 70 MB độ dài vào khoảng gần nói Bộ sở liệu gán nhãn tay mức âm tiết âm vị bao gồm thông tin điệu Mặc dù kích cỡ nhỏ, xem sở liệu chất lượng cao việc thiết kế kịch văn đảm bảo độ cân âm cao việc gán nhãn mức âm vị xác d Cơ sở liệu MICA VNSpeech Đây sở liệu xây dựng Trung tâm nghiên cứu quốc tế MICA, Đại học Bách Khoa Hà Nội Bộ sở liệu đươc nói 50 người nói bao gồm 25 nữ 25 nam với độ tuổi từ 15 đến 45 Người nói hầu hết có trình độ đại học với ba phương ngữ chính: miền Nam, miền Bắc, miền Trung Việt nam Mỗi người nói khoảng 60 phút Tần số lấy mẫu 16 KHz Mức độ cân ngữ âm âm vị đảm bảo tốt [26] Mặc dù sở liệu xem sở liệu tiếng nói lớn với chất lượng thu âm cao, nhãn mô tả sở liệu tạo phương pháp gán nhãn tự động có sai số lớn giới hạn khả sử dụng sở liệu nghiên cứu xử lý tiếng nói tiếng Việt e Các sở liệu khác Gần đây, số nhóm nghiên cứu cố gắng thu thập nguồn tài nguyên tiếng nói để xây dựng sở liệu tiếng nói tiếng Việt lớn, ví dụ sở liệu tin tức phát tiếng Việt (VNBN) với khoảng 40 sở liệu đàm thoại với khoảng 11 tiếng nói [27] Tuy nhiên sở liệu chưa gán nhãn gán nhãn 42 mức âm vị Do chúng chưa sử dụng rộng rãi nghiên cứu xử lý tiếng nói tiếng Việt 3.3 Lựa chọn sở liệu Dựa phân tích sở liệu tiếng Việt có mục 3.2, lựa chọn sở liệu DEMEN567 NOISEX-92 để thực nghiệm đánh giá cho luận văn 3.4 Cài đặt phương pháp 3.4.1 Phương pháp trừ phổ Lưu đồ phương pháp trừ phổ thể hình 3.2 Ước lượng, cập nhật nhiễu Tín hiệu bị nhiễu FFT Y(w) (w) | |p - | Dˆ (w) | p + Pha tín hiệu Tín hiệu sau tăng cường IFFT | |1/ p Hình Hình 3.2: Lưu đồ thuật toán Spectral subtraction (trừ phổ) Khi cài đặt, tham khảo sử dụng thư viện mã nguồn mở Esfandiar Zavarehei xây dựng năm 2005 cài đặt phương pháp trừ phổ kinh điển Boll đề xuất năm 1979 43 3.4.2 Phương pháp biến đổi sử dụng học máy thống kê GMM Cơ sở toán học phương pháp trình bày phần Để cài đặt phương pháp sử dụng thư viện STRAIGHT để phân tích tham số, thư viện Voice Conversion Toolbox cho hàm thống kê GMM thực MATLAB [28] Lưu đồ thuật toán trình huấn luyện mô hình GMM cho tham số phổ tương ứng cặp tiếng nói có nhiễu – tiếng nói (A-B) trình bày hình 3.3 Lưu đồ thuật toán trình chuyển đổi tham số phổ tiếng nói có nhiễu A thành tham số tương ứng với tiếng nói B cho hình 3.4 44 Tiếng nói nhiễu A Tiếng nói B STRAIGHT Đường bao phổ Rút gọn đường bao phổ Rút gọn đường bao phổ LSF A LSF B Huấn luyện GMM Hình 3.3: Huấn luyện mô hình GMM cho tham số phổ LSF 45 Tiếng nói nhiễu A STRAIGHT Đường bao phổ Rút gọn đường bao phổ GMM A-B LSF A Chuyển đổi phổ LSF B STRAIGHT Tiếng nói B Hình 3.4: Chuyển đổi mô hình GMM cho tham số phổ LSF 3.5 Đánh giá kết thực nghiệm Trong phần luận văn đánh giá tính khả thi mô hình nâng cao chất lượng tiếng nói có nhiễu Mục đích việc đánh giá để 46 kiểm tra xem liệu mô hình nghiên cứu nâng cao chất lượng âm tốt từ xác định mô hình hữu ích để áp dụng cho hệ thống thính giác người hệ thống nhận dạng tự động ASR Ở tác giả sử dụng phương pháp đánh giá chủ quan MOS (người nghe đánh giá) phương pháp đánh giá khách quan (máy đánh giá theo công thức) LCD để đánh giá cải thiện việc nâng cao chất lượng tiếng nói có nhiễu sử dụng phương pháp Spectral subtraction (Trừ phổ) phương pháp LPGMM Mỗi phương pháp có ưu nhược điểm riêng Trong luận văn tác giả lựa chọn sở liệu tiếng Việt DEMEN567 NOISEX-92 để thực đánh giá kết 3.5.1 Tiêu chí đánh giá chủ quan Đánh giá chủ quan tiêu chí sử dụng người nghe để đánh giá chất lượng tiếng nói Việc đánh giá chủ quan xem quan trọng mục tiêu cuối tiếng nói sau nâng cao chất lượng phải đảm bảo người nghe hiểu chấp nhận Tuy nhiên để đánh giá chủ quan tốn kém, thời gian cần thiết bị nghe phòng nghe chuyên dụng để tránh nhiễu môi trường Ngoài phương pháp đánh giá chủ quan khó đảm bảo tin cậy người nghe tập trung, không tâm vào việc đánh giá cố tình cho điểm sai Để khắc phục yếu điểm cần tăng số lượng người nghe, số lượng phép test để đảm bảo giá trị thống kê có ổn định tin cậy Trong luận văn sử dụng độ đo MOS - sử dụng để đo lường chất lượng tiếng nói sau khôi phục việc đánh giá chấm điểm theo mức cảm nhận đối tượng nghe Các mức đánh giá trình bày bảng 3.3 47 Bảng 3.3: Mô tả mức điểm đánh giá Mức đánh giá Chất lượng tiếng nói Rất tốt Tốt Trung bình Kém Không đạt yêu cầu Phương pháp đánh giá chủ quan thực với 05 người người Việt- sinh viên trường Đại học Công nghệ thông tin truyền thông có độ tuổi từ 18 đến 20 có khả nghe bình thường Tất tín hiệu tiếng nói 567 câu tiếng Việt lấy ngẫu nhiên từ liệu kiểm tra đánh giá Chúng sử dụng loại tín hiệu âm thanh: tín hiệu tiếng nói sạch, tín hiệu tiếng nói có nhiễu (nhiễu nhà máy) loại tín hiệu khôi phục sử dụng mô hình Spectral subtraction (trừ phổ) LP-GMM Mức điểm đánh giá MOS điểm trung bình tất mẫu đánh giá 3.5.2 Tiêu chí đánh giá khách quan Nhằm khắc phục phần yếu điểm việc đánh giá chủ quan, nhiều phương pháp đánh giá khách quan xây dựng Các phương pháp đánh giá khách quan truyền thông theo cách tiếp cận so sánh trực tiếp hai tín hiệu tiếng nói tín hiệu tiếng nói có nhiễu, tín hiệu tiếng nói tín hiệu sử dụng phương pháp nâng cao chất lượng LCD (khoảng cách LP) Những số đo mục tiêu đánh giá tính toán theo công thức sau: p LCD   ( i 1 x (i)   y (i))2 (3.1) 48 Trong hệ số LP thứ i tín hiệu với thứ tự LP thiết lập P=20 3.5.3 Kết đánh giá thực nghiệm Luận văn sử dụng sở liệu đánh giá DEMEN567 sở liệu NoiseEX 92 Ở nhiễu phức hợp sử dụng luận văn nhân tạo cách: Lấy tín hiệu nhiễu nhà máy SNR = -10 dB lấy CSDL NoiseEX 92 cộng với tín hiệu tiếng nói CSDL DEMEN567 Trong luận văn sử dụng 66 tổng số 567 câu tiếng việt CSDL DEMEN567 để đánh giá khách quan sử dụng 05 người người Việt- sinh viên trường Đại học Công nghệ thong tin truyền thông có độ tuổi từ 18 đến 20 có khả nghe bình thường để đánh giá chủ quan (MOS) Sau đo khoảng cách tín hiệu tiếng nói với tín hiệu: tiếng nói có nhiễu nhà máy tín hiệu tiếng nói khôi phục, đánh giá cải thiện tín hiệu khôi phục so với tín hiệu tiếng nói có nhiễu Bảng 3.4 3.5 cho thấy biến đổi trung bình phép đo khách quan chủ quan Kết cho thấy mô hình LP-GMM mô hình tốt cho tất phép đo cải tiến gần lớn Bảng 3.4 : Kết đánh giá phương pháp LCD Phương pháp khôi phục LCD Trừ phổ 0.4009 LP-GMM 0.1830 Nhiễu Sạch 0.3838 49 Bảng 3.5 : Kết đánh giá phương pháp MOS Nhiễu Trừ phổ 1.19 1.28 MOS LP-GMM 3.83 Sạch 4.21 3.6 Nhận xét chung kết So với kết nghiên cứu công bố kết thử nghiệm luận văn tương đồng Điều lần khẳng định phương pháp khôi phục tiếng nói có nhiễu mô hình khôi phục LP-GMM phương pháp tốt so với mô hình kinh điển trước Và với phương pháp sử dụng mô hình LP-GMM phương pháp hiệu cần quan tâm nghiên cứu thử nghiệm tiếp 50 KẾT LUẬN Luận văn nghiên cứu tổng quan phương pháp nâng cao chất lượng tiếng nói có nhiễu sử dụng mô hình pha trộn GMM phương pháp nâng cao chất lượng tiếng nói có nhiễu kinh điển sử dụng kỹ thuật trừ phổ (Spectral subtraction) Luận văn tiến hành đánh giá thực nghiệm phương pháp sở liệu tiếng Việt DEMEN567 NOISEX-92 Kết đánh giá thực nghiệm cho thấy Phương pháp nâng cao chất lượng tiếng nói có nhiêu sử dụng mô hình pha trộn GMM tối ưu Phương pháp đưa tiếng nói không bị méo không bị mát thông tin, đạt tính dễ nghe dễ hiểu Đặc biệt phương pháp khắc phục hạn chế mà phương pháp truyền thống không làm áp dụng cho môi trường nhiễu phức hợp Hướng nghiên cứu phát triển luận văn: - Cải tiến mô hình GMM - Xây dựng CSDL, thử nghiệm với CSDL lớn - Thực nghiệm thêm với phương pháp phân lớp khác SVM, HMM,… 51 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Hoàng Phê (2003), Chính tả Tiếng Việt, NXB Đà Nẵng, trang 9-15 [2] Đoàn Thiện Thuật (2003), Ngữ âm tiếng Việt, NXB Đại học Quốc Gia Tài liệu tiếng anh [3] K Nakamura, T Toda, H Saruwatari, K Shikano “Speaking-aid systems using GMM-based voice conversion for electrolaryngeal speech”, Speech Communication, Vol 54, No 1, pp 134-146 (2012) [4] T Hirahara, M Otani, S Shimizu, T Toda, K Nakamura, Y Nakajima, K Shikano “Silent-speech enhancement using body-conducted vocaltract resonance signals” Speech Communication, Vol 52, No 4, pp 301313, (2010) [5] V.-A Tran, G Bailly, H Loevenbruck, T Toda, “Improvement to a NAM-captured whisper-to-speech system”, Speech Communication, Vol 52, No.4, pp 314-326, (2010) [6] Trung Nghia Phung, Masashi Unoki and Masato Akagi, “Improving Bone-Conducted Speech Restoration in noisy environment based on LP scheme”, Proc APSIPA 2010, (2010) [7] D Huy-Khoi, P Trung-Nghia, HC Nguyen, VT Nguyen, and QV Thai, “A novel spectral conversion based approach for noisy speech enhancement”, International Journal of Information and Electronics Engineering, vol 1, no 3, 281-285, (2011) [8] A Mouchtaris, J V Spiegel, P Mueller, and Panagiotis Tsakalides, “A Spectral Conversion Approach to Single-Channel Speech Enhancement,” 52 “IEEE Trans On Audio, Speech, And Language Processing”, vol.15, no.4, May 2007 [9] Weiss, M., Aschkenasy, E., and Parsons, T., (1974), Study and the Development of the INTEL Technique for Improving Speech Intelligibility, Technical Report NSC-FR/4023, Nicolet Scientific Corporation [10] Deller, J., Hansen, J.H.L., and Proakis, J (2000), Discrete –time Processing of Speech Signals, New York : IEEE Press [11] Guastafsson, H., Nordholm, S., and Claesson, I.(2001), Spectral subtraction using reduced delay convolution and adaptive averaging, IEEE Trans Speech Audio Process., 9(8), 799-807 [12] Philippos C.Loizou, Speech Enhancement Theory and Practice,pp 100 [13].Hu, Y and Loizou, P(2006), Subjective comparison of speech enhancement algorithms, Proc IEEE Int.Conf Acoust Speech Signal Process, I [14] Philippos C.Loizou, Speech Enhancement Theory and Practice,pp 2-7 [15] Paliwal, K and Alsteris, L.(2005), On the usefulness of STFT phase spectrum in human listening tests, Speech Commun., 45(2), 153170 [16] T.T Vu K Kimura, M.Unoki, and M Akagi, “A study on Restoration of Bone – conducted Speech with MTF – based and LP – based Models ”, “journal of Signal Processing”, vol.10, no 6, pp 407 – 417, 2006 [17] T N Phung, M Unoki, and M Akagi, “Comparative Evaluation of Bone – conducted – speech Restoration based on Linear Prediction Scheme”, 53 “IEICE Technical Report”, vol 110, no 71, pp 53-58, June, 2010 [18] H K DO and Q V THAI, “A new approach for speech denoising using spectral conversion”, “Proc ICSPS 2011”, August, Yantai, China [19] A Kain and M W Macon, “Spectral Voice Conversion For Text – To – Speech Synthesis”, “proc ICASSP 1998”, vol 1, pp 285-288, 1998 [20] H.Hermansky., Perceptual linear predictive (PLP) analysis for speech “J Acoust, Soc Am”, pp 1738-1752, 1990 [21] J.S Lim and A V Oppenheim, “Enhancement and band width compression of noisy speech”, “Proc Of the IEEE”, Vol 67, No 12, 1586-1604, Dec 1979 [22] L Rabiner and B H Juang, “Fundamental of Speech Recognition”, Copyright 1993 by AT&T [23] Lê Hồng Minh (2003), “Some results in Research and Development of Text To Speech conversion system for Vietnamese language based on formant synthesis," Hội thảo ICT.RDA [24] Phung, Trung-Nghia (2013), et al "Improving Naturalness of HMMBased TTS Trained Decomposition." IEICE with Limited TRANSACTIONS Data on by Temporal Information and Systems 96.11: 2417-2426 [25] L.C Mai and D.N Duc (2006), “Design of Vietnamese speech corpus and current status," Proc ISCSLP-06, pp 748-758 [26] V.B Le, D.D Tran, L Besacier, E Castelli, and J.F Serignat (2005), “First steps in building a large vocabulary continuous speech recognition system for Vietnamese," Proc RIVF05, pp 330-333, pp 21-24 54 [27] Vũ Hải Quân (2010), “VOS: The Corpus-based Vietnamese Text-tospeech System," Tạp chí CNTT & TT [28] Sündermann, David (2007) “Voice conversion Matlab toolbox” Technical Report, Siemens Corporate Technology, Munich, Germany [29] S Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans on Acoustics, Speech and Signal Proc, vol 27 issue 2, 113 – 120, (1979) [30] N Bi and Y Qi, “Application of speech conversion to alaryngeal speech enhancement”, IEEE Trans on Speech and Audio Proc (1997) [...]... tín hiệu nhiễu, và chúng ta mong muốn sẽ tìm ra được một phương thức ước lượng tuyến tính hoặc phi tuyến các tham số có lợi, đó là hệ chuyển đổi của tín hiệu sạch 21 CHƯƠNG II: PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI CÓ NHIỄU PHỨC HỢP BẰNG HỌC MÁY DÙNG MÔ HÌNH PHA TRỘN GAUSSIAN 2.1 Phương pháp nâng cao chất lượng tiếng nói có nhiễu kinh điển dùng kỹ thuật trừ phổ Đây là phương pháp truyền thống được... nhân như nhiễu kênh Ngoài ra việc ước lượng nguồn nhiễu là rất khó khăn trong điều kiện nhiễu nặng và môi trường nhiều nguồn nhiễu, nhiễu phức hợp kết hợp cả nhiễu cộng và nhiễu nhân Cách tiếp cận triệt nhiễu nâng cao chất lượng tiếng nói bằng học máy ước lượng luật biến đổi tiếng nói sạch – tiếng nói có nhiễu thay vì ước lượng nguồn nhiễu độc lập Do vậy có thể áp dụng cho nhiều loại nguồn nhiễu khác... thiết nhiễu có tính dừng (stationary) Cách tiếp cận này đã được sử dụng gần đây để nâng cao chất lượng một số loại tiếng nói bị suy giảm chất lượng như tiếng nói của người có cơ quan phát âm khiếm khuyết [30, 3], tiếng nói truyền trong xương [4,5,6] Trong luận văn này, chúng tôi thử nghiệm cách tiếp cận triệt nhiễu tiếng nói dùng học máy thống kê, sử dụng mô hình pha trộn Gaussian (GMM) cho môi trường nhiễu. .. tiếng nói và vấn đề nhiễu trong tiếng nói, một số phương pháp xử lý nhiễu kinh điển không dùng học máy, cách tiếp cận dùng học máy, đặc biệt là phương pháp học máy dùng mô hình pha trộn Gaussian [7] Luận văn cũng nghiên cứu đánh giá thực nghiệm các phương pháp để đưa ra các nhận xét, đánh giá 4 Phương pháp nghiên cứu Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có trên thế giới [29,30,3-7]... chất lượng tiếng nói có nhiễu bằng học máy thống kê có thể áp dụng cho môi trường nhiễu nhân, nhiễu phức hợp kết hợp cả nhiễu cộng và nhiễu nhân, nên có tiềm năng ứng dụng cao Đây là hướng nghiên cứu còn khá mới mẻ ở Việt Nam Do vậy vấn đề nghiên cứu trong luận văn có ý nghĩa khoa học và thực tiễn 4 CHƯƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ XỬ LÝ NHIỄU TRONG TIẾNG NÓI 1.1 Tổng quan về tiếng nói 1.1.1... toán nâng cao chất lượng tiếng nói là sự nhận biết dải biến thiên của tiếng nói và mức độ cường độ nhiễu trong môi trường thực tế Từ đó, chúng ta có thể mô tả miền biến thiên của mức độ tỷ số tín hiệu trên nhiễu (SNR) được bắt gặp trong môi trường thực tế Điều này rất quan trọng để đánh giá tính hiệu quả của các thuật toán nâng cao chất lượng tiếng nói trong việc nén nhiễu và cải thiện chất lượng của tiếng. .. nhiễu dùng học máy thống kê, đặc biệt là phương pháp sử dụng mô hình pha trộn Gaussian 3 Đối tượng và phạm vi nghiên cứu: Đối tượng nghiên cứu của luận văn là cách tiếp cận triệt nhiễu nâng cao chất lượng tiếng nói bằng học máy Đây là đối tượng nghiên cứu được một số nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tín hiệu tiếng nói và... được sử dụng phổ biến Phương pháp nâng cao chất lượng tiếng nói có nhiễu sử dụng thuật toán Spectral subtraction (trừ phổ) dựa trên một nguyên tắc cơ bản: Thừa nhận sự có mặt của nhiễu, phổ của tín hiệu tiếng nói sạch thu được bằng cách sau: Lấy phổ của tín hiệu tiếng nói có nhiễu trừ đi phổ của nhiễu Phổ của nhiễu có thể được ước lượng, cập nhật trong nhiều chu kỳ khi không có mặt của tín hiệu Sự... loại nguồn nhiễu như nhiễu nền, thông thường được coi là nhiễu cộng, cũng như nhiễu kênh, thông thường được coi là nhiễu nhân (nhiễu chập - convolutive noise) Hầu hết các nghiên cứu về triệt nhiễu nâng cao chất lượng tiếng nói hiện nay sử dụng phương pháp ước lượng nguồn nhiễu với giải thiết nguồn nhiễu là cộng tính và biến đổi chậm [29] Do đó, các phương pháp hiện tại thường không hiệu quả với nhiễu nhân... vậy, mô hình kích thích nguồn âm tổng hợp cả âm hữu thanh và âm vô thanh để tạo tiếng nói có dạng như trong hình 1.21 Hình 1.21: Mô hình hóa quá trình tạo tiếng nói 1.3 Xử lý nhiễu tiếng nói 1.3.1 Cách tiếp cận không dùng học máy Spectral-subtraction (SS) hay còn gọi là trừ phổ là một thuật toán giảm nhiễu đơn giản nhất Nó dựa trên nguyên lý cơ bản là nó sẽ mô tả và cập nhật nhiễu trong tín hiệu có nhiễu ... quan tín hiệu tiếng nói vấn đề nhiễu tiếng nói, số phương pháp xử lý nhiễu kinh điển không dùng học máy, cách tiếp cận dùng học máy, đặc biệt phương pháp học máy dùng mô hình pha trộn Gaussian [7]... không dùng học máy 20 iv 1.3.2 Cách tiếp cận dùng học máy 20 CHƯƠNG II: PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI CÓ NHIỄU PHỨC HỢP BẰNG HỌC MÁY DÙNG MÔ HÌNH PHA TRỘN GAUSSIAN ... ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG TRỊNH THỊ THỦY PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI CÓ NHIỄU DÙNG HỌC MÁY THỐNG KÊ BẰNG MÔ HÌNH PHA TRỘN GAUSSIAN

Ngày đăng: 09/12/2016, 22:50

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[4]. T. Hirahara, M. Otani, S. Shimizu, T. Toda, K. Nakamura, Y. Nakajima, K. Shikano. “Silent-speech enhancement using body-conducted vocal- tract resonance signals” Speech Communication, Vol. 52, No. 4, pp. 301- 313, (2010) Sách, tạp chí
Tiêu đề: Silent-speech enhancement using body-conducted vocal-tract resonance signals” "Speech Communication
[5]. V.-A. Tran, G. Bailly, H. Loevenbruck, T. Toda, “Improvement to a NAM-captured whisper-to-speech system”, Speech Communication, Vol Sách, tạp chí
Tiêu đề: Improvement to a NAM-captured whisper-to-speech system”, "Speech Communication
[6]. Trung Nghia Phung, Masashi Unoki and Masato Akagi, “Improving Bone-Conducted Speech Restoration in noisy environment based on LP scheme”, Proc. APSIPA 2010, (2010) Sách, tạp chí
Tiêu đề: Improving Bone-Conducted Speech Restoration in noisy environment based on LP scheme
[8]. A. Mouchtaris, J. V. Spiegel, P. Mueller, and Panagiotis Tsakalides, “A Spectral Conversion Approach to Single-Channel Speech Enhancement,” Sách, tạp chí
Tiêu đề: A Spectral Conversion Approach to Single-Channel Speech Enhancement
[10]. Deller, J., Hansen, J.H.L., and Proakis, J. (2000), Discrete –time Processingof Speech Signals, New York : IEEE Press Sách, tạp chí
Tiêu đề: Discrete –time Processing of Speech Signals
Tác giả: Deller, J., Hansen, J.H.L., and Proakis, J
Năm: 2000
[11]. Guastafsson, H., Nordholm, S., and Claesson, I.(2001), Spectral subtraction using reduced delay convolution and adaptive averaging, IEEE Trans. Speech Audio Process., 9(8), 799-807 Sách, tạp chí
Tiêu đề: IEEE Trans. Speech Audio Process
Tác giả: Guastafsson, H., Nordholm, S., and Claesson, I
Năm: 2001
[13].Hu, Y. and Loizou, P(2006), Subjective comparison of speech enhancement algorithms, Proc. IEEE Int.Conf. Acoust. Speech Signal Process, I Sách, tạp chí
Tiêu đề: Proc. IEEE Int.Conf. Acoust. Speech Signal Process
Tác giả: Hu, Y. and Loizou, P
Năm: 2006
[15]. Paliwal, K. and Alsteris, L.(2005), On the usefulness of STFT phase spectrum in human listening tests, Speech Commun., 45(2), 153- 170 Sách, tạp chí
Tiêu đề: Speech Commun
Tác giả: Paliwal, K. and Alsteris, L
Năm: 2005
[16] T.T. Vu. K. Kimura, M.Unoki, and M. Akagi, “A study on Restoration of Bone – conducted Speech with MTF – based and LP – based Models ”,“journal of Signal Processing”, vol.10, no. 6, pp. 407 – 417, 2006 Sách, tạp chí
Tiêu đề: A study on Restoration of Bone – conducted Speech with MTF – based and LP – based Models ”, “journal of Signal Processing
[17] T. N. Phung, M. Unoki, and M. Akagi, “Comparative Evaluation of Bone – conducted – speech Restoration based on Linear Prediction Scheme” Sách, tạp chí
Tiêu đề: Comparative Evaluation of Bone – conducted – speech Restoration based on Linear Prediction Scheme
[18] H. K. DO and Q. V. THAI, “A new approach for speech denoising using spectral conversion”, “Proc. ICSPS 2011”, August, Yantai, China Sách, tạp chí
Tiêu đề: A new approach for speech denoising using spectral conversion”, “Proc. ICSPS 2011
[19] A. Kain and M. W. Macon, “Spectral Voice Conversion For Text – To – Speech Synthesis”, “proc. ICASSP 1998”, vol. 1, pp. 285-288, 1998 Sách, tạp chí
Tiêu đề: Spectral Voice Conversion For Text – To – Speech Synthesis”, “proc. ICASSP 1998
[20] H.Hermansky., Perceptual linear predictive (PLP) analysis for speech. “J. Acoust, Soc. Am”, pp. 1738-1752, 1990 Sách, tạp chí
Tiêu đề: J. Acoust, Soc. Am
[21] J.S. Lim and A. V. Oppenheim, “Enhancement and band width compression of noisy speech”, “Proc. Of the IEEE”, Vol. 67, No. 12, 1586-1604, Dec. 1979 Sách, tạp chí
Tiêu đề: Enhancement and band width compression of noisy speech”, “Proc. Of the IEEE
[22] L. Rabiner and B. H. Juang, “Fundamental of Speech Recognition”, Copyright 1993 by AT&T Sách, tạp chí
Tiêu đề: Fundamental of Speech Recognition
[23] Lê Hồng Minh (2003), “Some results in Research and Development of Text To Speech conversion system for Vietnamese language based on formant synthesis," Hội thảo ICT.RDA Sách, tạp chí
Tiêu đề: Some results in Research and Development of Text To Speech conversion system for Vietnamese language based on formant synthesis
Tác giả: Lê Hồng Minh
Năm: 2003
[24] Phung, Trung-Nghia (2013), et al. "Improving Naturalness of HMM- Based TTS Trained with Limited Data by Temporal Decomposition." IEICE TRANSACTIONS on Information and Systems 96.11: 2417-2426 Sách, tạp chí
Tiêu đề: Improving Naturalness of HMM-Based TTS Trained with Limited Data by Temporal Decomposition
Tác giả: Phung, Trung-Nghia
Năm: 2013
[25] L.C. Mai and D.N. Duc (2006), “Design of Vietnamese speech corpus and current status," Proc. ISCSLP-06, pp. 748-758 Sách, tạp chí
Tiêu đề: Design of Vietnamese speech corpus and current status
Tác giả: L.C. Mai and D.N. Duc
Năm: 2006
[26] V.B. Le, D.D. Tran, L. Besacier, E. Castelli, and J.F. Serignat (2005), “First steps in building a large vocabulary continuous speech recognition system for Vietnamese," Proc. RIVF05, pp. 330-333, pp. 21-24 Sách, tạp chí
Tiêu đề: First steps in building a large vocabulary continuous speech recognition system for Vietnamese
Tác giả: V.B. Le, D.D. Tran, L. Besacier, E. Castelli, and J.F. Serignat
Năm: 2005
[27] Vũ Hải Quân (2010), “VOS: The Corpus-based Vietnamese Text-to- speech System," Tạp chí CNTT & TT Sách, tạp chí
Tiêu đề: VOS: The Corpus-based Vietnamese Text-to-speech System
Tác giả: Vũ Hải Quân
Năm: 2010

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w