Nghiên cứu các phương pháp cải thiện tiếng nói sử dụng một microphone

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI TRẦN TIẾN DŨNG NGHIÊN CỨU CÁC PHƯƠNG PHÁP CẢI THIỆN TIẾNG NÓI SỬ DỤNG MỘT MICROPHONE LUẬN VĂN THẠC SĨ NGÀNH ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN Hà Nội, 2010 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI TRẦN TIẾN DŨNG NGHIÊN CỨU CÁC PHƯƠNG PHÁP CẢI THIỆN TIẾNG NÓI SỬ DỤNG MỘT MICROPHONE LUẬN VĂN THẠC SĨ NGÀNH ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU NGƯỜI HƯỚNG DẪN: TS NGUYỄN QUỐC CƯỜNG Hà Nội, 2010 Luận văn thạc sỹ khoa học LỜI CAM ĐOAN .4 DANH MỤC HÌNH VẼ DANH MỤC CÁC BẢNG PHẦN MỞ ĐẦU CHƯƠNG I: GIỚI THIỆU TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI .11 1.1.Nâng cao chất lượng tiếng nói 11 1.2.Tại phải cải thiện tiếng nói 11 1.3.Ứng dụng nâng cao chất lượng tiếng nói 12 1.4.Đánh giá chất lượng hệ thống nâng cao chất lượng tiếng nói 12 1.5.Mục đích luận văn .13 1.6.Cấu trúc luận văn 13 CHƯƠNG 2: GIỚI THIỆU KHÁI QUÁT VỀ CÁC PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI SỬ DỤNG MỘT MICROPHONE 15 2.1.Các phương pháp thao tác miền phổ biên độ 16 2.2.Các phương pháp sử dụng lọc thích nghi 18 2.3.Các phương pháp phân li không gian 19 2.4.Các phương pháp sử dụng mơ hình tiếng nói 21 2.5.Các phương pháp khác 22 CHƯƠNG III: TRÌNH BÀY VỀ CÁC PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI THAO TÁC TRÊN MIỀN PHỔ BIÊN ĐỘ 24 3.1.Lí thuyết chung phép ước lượng Bayes 24 3.2.Phương pháp ước lượng tín hiệu .27 3.2.1.Phương pháp trừ phổ 27 Luận văn thạc sỹ khoa học 3.2.2.Phương pháp ước lượng cực tiểu hóa trung bình bình phương sai lêch 29 3.2.3.Phương pháp ước lượng cực tiểu hóa trung bình bình phương sai lệch thang logarithm 36 3.2.4.Phương pháp cực tiểu hóa trung bình bình phương sai lệch thang logarithm có hiệu chỉnh tối ưu 41 3.3.Phương pháp ước lượng nhiễu 46 3.3.1.Voice Activity Detector 47 3.3.2.Ước lượng nhiễu dựa vào Frame Energy Histograms .48 3.3.3.Ước lượng nhiễu sử dụng thuật toán phát định mềm .48 3.3.4.Ước lượng nhiễu sử dụng thuật toán thống kê cực tiểu 50 3.3.5.Phương pháp trung bình đệ quy có điều khiển IMCRA 52 3.3.6.Phương pháp ước lượng nhiễu dựa vào ước lượng MMSE với độ phức tạp thấp 57 3.4.Đánh giá thuật toán 59 CHƯƠNG IV: HỆ THỐNG ÂM HỌC VÀ CƠ CHẾ NGHE Ở TAI NGƯỜI .65 4.1.Cấu tạo chế nghe tai người 65 4.2.Mơ hình ốc tai 67 CHƯƠNG V: TRÌNH BÀY VỀ PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI ĐƯỢC ĐỀ XUẤT 68 5.1.Thuật toán đề xuất 68 5.2.Đánh giá so sánh kết với phương pháp có .68 CHƯƠNG VI: TRIỂN KHAI THUẬT TOÁN TRÊN THIẾT BỊ NHÚNG 70 6.1.Giới thiệu kít phát triển Beagle Board 70 6.2.Triển khai thuật toán Beagle Board 70 Luận văn thạc sỹ khoa học CHƯƠNG VII: HƯỚNG PHÁT TRIỂN CỦA NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI .71 Luận văn thạc sỹ khoa học LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi, hướng dẫn trực tiếp TS Nguyễn Quốc Cường – Đại học Bách Khoa Hà Nội Các số liệu, kết nghiên cứu trình bày luận văn trung thực chưa công bố cơng trình nghiên cứu khác Học viên Trần Tiến Dũng Luận văn thạc sỹ khoa học DANH MỤC KÍ HIỆU, CÁC CHỮ VIẾT TẮT MMSE : Minimum Mean Square Error PC : Personal Computer MCRA : Minimum Controllers Recursive Averaging OMLSA : Optimal Modified Log-Spectral Amplitude IMCRA : Improved Minimum Controllers Recursive Averaging ERB : SNR : Luận văn thạc sỹ khoa học DANH MỤC HÌNH VẼ Hình vẽ Nâng cao chất lượng tiếng nói sử dụng lọc thích nghi 18 Hình vẽ Mơ hình tốn 24 Hình vẽ Hàm chi phí 25 Hình vẽ Sơ đồ khối thuật toán nâng cao chất lượng tiếng nói sử dụng phương pháp trừ phổ 28 Hình vẽ Hàm khuếch đại MMSE – nét đậm, hàm khuếch đại Wiener – nét đứt .32 Hình vẽ Hệ số khuếch đại ứng với trường hợp xác suất vắng mặt tiếng nói qk = 0.2 34 Hình vẽ Sơ đồ khối thuật toán nâng cao chất lượng tiếng nói sử dụng phương pháp ước lượng cực tiểu hóa trung bình bình phương sai lệch 35 Hình vẽ Đồ thị hàm khuếch đại: Đường đậm-MMSE-LSA;Đường gạch-MMSE 40 Hình vẽ Sơ đồ khối thuật toán nâng cao chất lượng tiếng nói sử dụng phương pháp ước lượng cực tiểu hóa trung bình bình phương sai lệch có hiệu chỉnh tối ưu .44 Hình vẽ 10 Tính tốn hệ số khuếch đại phi tuyến 45 Hình vẽ 11 So sánh phương pháp tỉ số tín hiệu nhiễu 0dB 60 Hình vẽ 12 So sánh phương pháp tỉ số tín hiệu nhiễu 5dB 60 Hình vẽ 13 So sánh phương pháp tỉ số tín hiệu nhiễu 10dB 60 Hình vẽ 14 So sánh phương pháp tỉ số tín hiệu nhiễu 15dB 60 Hình vẽ 15 Tiếng nói có nhiễu thu ngã tư Đại Cồ Việt – Hà Nội lúc13h 61 Hình vẽ 16 Tiếng nói sau lọc thuật toán trừ phổ 62 Luận văn thạc sỹ khoa học Hình vẽ 17 Tiếng nói lọc thuật tốn MMSE chưa tính đến xác xuất vắng mặt tiên nghiệm tiếng nói 62 Hình vẽ 18 Tiếng nói sau lọc thuật tốn MMSE tính đến xác suất vắng mặt tiên nghiệm tiếng nói 63 Hình vẽ 19 Tiếng nói sau lọc thuật tốn MMSE-LSA .63 Hình vẽ 20 Tiếng nói sau lọc thuật tốn OMLSA-IMCRA .63 Hình vẽ 21 Mơ hình cấu tạo tai bao gồm tai ngồi, tai tai 65 Hình vẽ 22 Mơ hình ốc tai khơng cuộn .66 Hình vẽ 23 Ánh xạ tần số ốc tai .66 Hình vẽ 24 Lưu đồ thuật toán phương pháp đề xuất .68 Hình vẽ 25 Đánh giá theo tiêu chí PESQ MOS .69 Hình vẽ 26 Giới thiệu kit phát triển Beagle Board .70 Hình vẽ 27 Tín hiệu trước (trái) sau lọc nhiễu (phải) 70 Luận văn thạc sỹ khoa học DANH MỤC CÁC BẢNG Bảng Thông số cài đặt thuật toán MMSE 36 Bảng Thơng số cài đặt thuật tốn MMSE-LSA .40 Bảng Thông số cài đặt thuật toán OMLSA .45 Bảng Thơng số cài đặt thuật tốn IMCRA 57 Luận văn thạc sỹ khoa học thấp so với phương pháp MMSE tất loại nhiễu mức tỉ số tín hiệu nhiễu thấp 0dB 5dB (nhiễu lớn) Phương pháp trừ phổ SPECSUB đạt kết kém: tỉ số tín hiệu nhiễu, thấp độ méo cao, số PESQ thấp đặc biệt gây tượng “musical noise” gây cảm giác khó chịu người nghe Phương pháp MMSE có số PESQ tốt so với hai phương pháp lại mức tỉ số tín hiệu nhiễu SNR thấp 0dB 5dB phương pháp OMLSA lại có sổ PESQ cải thiện chút so với hai phương pháp cịn lại mức tỉ số tín hiệu nhiễu SNR cao 10dB 15dB (ít nhiễu) Hai phương pháp OMLSA MMSE giảm đáng kể tượng ‘musical noise’ đặc biệt phương pháp OMLSA Nói tóm lại phương pháp OMLSA tỏ ưu việt so với hai phương pháp lại phương pháp trừ phổ phương pháp MMSE Dưới kết ba thuật toán đoạn âm thu trực tiếp ngã tư Đại Cồ Việt – Hà Nội lúc 1h chiều: Hình vẽ 15 Tiếng nói có nhiễu thu ngã tư Đại Cồ Việt – Hà Nội lúc13h 61 Luận văn thạc sỹ khoa học Hình vẽ 16 Hình vẽ 17 Tiếng nói sau lọc thuật tốn trừ phổ Tiếng nói lọc thuật tốn MMSE chưa tính đến xác xuất vắng mặt tiên nghiệm tiếng nói 62 Luận văn thạc sỹ khoa học Hình vẽ 18 Tiếng nói sau lọc thuật tốn MMSE tính đến xác suất vắng mặt tiên nghiệm tiếng nói Hình vẽ 19 Hình vẽ 20 Tiếng nói sau lọc thuật tốn MMSE-LSA Tiếng nói sau lọc thuật toán OMLSA-IMCRA Kết cho thấy phương pháp kết hợp OMLSA – IMCRA đạt kết tốt so với phương pháp lại Phương pháp OMLSA – IMCRA khơng loại bỏ hồn tồn nhiễu “musical noise” mà làm giảm bớt lượng nhiễu dư “residual noise” Phương pháp trừ phổ gây tượng “musical noise” Trong MMSE , MMSE-LSA loại bỏ bớt tượng “musical noise” cịn nhiều nhiễu dư “residual noise” Một điểm đáng lưu ý tất phương pháp gặp khó khăn trường hợp nhiễu nhiễu không ổn định nhiễu biến thiên đột ngột Trong trường hợp nhiễu biến thiên đột ngột thuật tốn không 63 Luận văn thạc sỹ khoa học bám theo kịp biến thiên nhiễu dẫn đến lượng nhiễu dư cịn nhiều Phương pháp sửa đổi trình bày cải thiện đáng kể khả bám theo nhiễu không ổn định để mang lại kết tốt 64 Luận văn thạc sỹ khoa học CHƯƠNG IV: HỆ THỐNG ÂM HỌC VÀ CƠ CHẾ NGHE Ở TAI NGƯỜI 4.1.Cấu tạo chế nghe tai người Về mặt cấu tạo, tai người bao gồm ba phần: tai ngồi, tai tai Tai ngồi có nhiệm vụ lựa chọn dẫn truyền âm vào tai Sau lan truyền qua tai âm đến tai Tai có cấu trúc cảm nhận âm gọi ốc tai – phân chuyển đổi đầu vào âm thành rung động thần kinh Hình vẽ 21 Mơ hình cấu tạo tai bao gồm tai ngồi, tai tai Ốc tai: Ốc tai ống cuộn chứa đầy chất lỏng mà trông giống vỏ ốc sên Xương bàn đạp nói với tai Nếu ốc tai dạng khơng cuộn có chiều dài khoảng 35mm Cấu trúc ống ốc chia vào ba buồng (ống tiền đình (vestibular), phần dẫn ốc tai (cochelea), ống màng (tympanic)) lớp màng đáy (membrane) hình vẽ Ốc tai có nhiều nơ ron thần kinh để truyền rung động thành tín hiệu thần kinh hệ thống thần kinh trung tâm 65 Luận văn thạc sỹ khoa học Hình vẽ 22 Mơ hình ốc tai khơng cuộn Lớp màng đáy cấu trúc cứng tế bào thần kinh “nằm” ốc tai Lớp màng đáy có chiều dài khoảng 35mm Bề rộng độ cứng thay đổi dọc theo chiều dài Từ đến đỉnh, chiều dày lớp màng đáy tăng lên lần độ cứng giảm 100 lần Trên lớp màng đáy, có ba hàng tế bào lơng phía ngồi OHC (outer hair cells) hàng tế bào lơng phía IHC (inner hair cells) Có khoảng 12,000 OHC 3,500 IHC lớp màng đáy người Tách tần số ốc tai Hình vẽ 23 Ánh xạ tần số ốc tai Sóng âm ln từ ốc tai đến đỉnh ốc tai không theo chiều ngược lại từ đỉnh ốc tai trở Sóng âm di chuyển gây “thế chỗ” tương đối lớp màng đáy khiến cho lớp lơng IHC “rẽ” bắt đầu q trình 66 Luận văn thạc sỹ khoa học kích thích IHC Vị trí phần “thế chỗ” thay đổi theo tần số đầu vào Khi tần số sóng âm mà cao thì phần “thế chỗ” cực đại phía ốc tai Khi số sóng âm mà thấp phần “thế chỗ” cực đại phía đỉnh ốc tai 4.2.Mơ hình ốc tai Một dải lọc dùng để mơ q trình lọc âm ốc tai Mơ hình ốc tai dựa chế dải lọc phổ biến mơ hình dải lọc gammatone (GTF) Mơ hình ốc tai gammatone GTF phát triển số nhà nghiên cứu Patterson, Johannesma, de Boer Bộ lọc gammatone theo đề xuất Patteson xấp xit hàm phân bố gamma mô tả dạng đáp ứng xung g(t) có dạng tốn học sau: g ( t ) at N −1e −2π bt cos [ 2π ft + φ ] với t ≥ 0, N ≥ = Trong a hệ số chuẩn hóa, N bậc lọc, b dải tần chữ nhật tương đương lọc ERB (equivalent rectangular bandwidth), f tần số trung tâm φ pha lọc Dải lọc gammatone bao gồm nhớm lọc gammatone xếp chồng lên (overlapped) với tần số trung tâm dải tần khác 67 Luận văn thạc sỹ khoa học CHƯƠNG V: TRÌNH BÀY VỀ PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI ĐƯỢC ĐỀ XUẤT 5.1.Thuật tốn đề xuất Sóng âm từ đuôi ốc tai đến đỉnh ốc tai không theo chiều ngược lại từ đỉnh ốc tai trở Sóng âm di chuyển gây “thế chỗ” tương đối lớp màng đáy khiến cho lớp lông IHC “rẽ” bắt đầu q trình kích thích IHC Vị trí phần “thế chỗ” thay đổi theo tần số đầu vào Khi tần số sóng âm mà cao thì phần “thế chỗ” cực đại phía ốc tai Khi số sóng âm mà thấp phần “thế chỗ” cực đại phía đỉnh ốc tai Thuật toán đề xuất dựa việc kết hợp thuật tốn ước lượng tín hiệu dựa phương pháp MMSE kinh điển, thuật toán ước lượng nhiễu MMSE với độ phức tạp thấp Tín hiệu sau đưa đưa qua lọc gammatone Có thể hình dung phương pháp đề xuất có mơ hình cụ thể sau: Ước lượng tín hiêu MMSE Ước lượng tín hiêu Bộ lọc gammatone MMSE Ước lượng nhiễu MMSE độ phức tạp thấp Hình vẽ 24 Lưu đồ thuật toán phương pháp đề xuất 5.2.Đánh giá so sánh kết với phương pháp có Kết đánh giá dựa thông số: 68 Luận văn thạc sỹ khoa học 4.5 3.5 gammatone 2.5 0dB 5dB 1.5 10dB 15dB 0.5 Hình vẽ 25 11 13 15 17 19 21 Đánh giá theo tiêu chí PESQ MOS 69 Luận văn thạc sỹ khoa học CHƯƠNG VI: TRIỂN KHAI THUẬT TOÁN TRÊN THIẾT BỊ NHÚNG 6.1.Giới thiệu kít phát triển Beagle Board Beagleboard dựa vi xử lý OMAP3530 thiết kế biệt dành riêng cho cộng đồng mã nguồn mở Nó trang bị số tính cho phép người sử dụng thử nghiệm tính OMAP3530 khơng phải tồn Do đó, số tính OMAP3530 khơng thể thực Beagleboard Tuy nhiên, sử dụng giao diện chuẩn, Beagleboard mở rộng nhiều tính Hình vẽ 26 Giới thiệu kit phát triển Beagle Board 6.2.Triển khai thuật tốn Beagle Board Tơi triển khai thuật tốn xuống kit phát triển ngơn ngữ C, sử dụng cơng cụ lập trình Eclipse sử dụng trình biên dịch GCC (GNU Compiler Collection) Kết liệu lọc nhiễu thiết bị phần cứng Hình vẽ 27 Tín hiệu trước (trái) sau lọc nhiễu (phải) 70 Luận văn thạc sỹ khoa học CHƯƠNG VII: HƯỚNG PHÁT TRIỂN CỦA NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI Việc sử dụng microphone cho ứng dụng nâng cao chất lượng tiếng nói cho thấy kết đạt đáng kể ưu điểm bật Một ưu điểm dễ thấy tính đơn giản vận hành thiết kế sử dụng microphone Ngoài thuật tốn cải thiện đưa có cải tiến đáng kể so với phương pháp đề xuất trước đặc biệt mơi trường có nhiễu không ổn định Một xu giới tiến hành việc sử dụng nhiều microphone cho hệ thống nâng cao chất lượng tiếng nói Nói xa việc cải thiện chất lượng hệ thống VoiP, hệ thống tự động nhận dạng tiếng nói, hệ thống tương tác người máy, hội thảo từ xa…Như tốc độ tính tốn lớn địi hỏi thiết bị phần cứng phải đáp ứng yêu cầu 71 Luận văn thạc sỹ khoa học Tài liệu tham khảo Boll S F (1979), “Suppression of Acoustic Noise in Speech Using Spectral Subtraction,” IEEE_J_ASSP , Vol ASSP-27 , pp 113-120 Berouti, M Schwartz, R.,Makhoul, J (1979), “Enhancement of speech corrupted by acoustic noise,” Proc IEEE ICASSP , Vol , pp 208-211 Lim, J S , Oppenheim,A V (1979), “Enhancement and bandwidth compression of noisy speech,” IEEE_J_PROC , Vol 67 , pp 1586-1604 Ephraim, Y , Malah, D (1984), “Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator,” IEEE_J_ASSP , Vol 32 , pp 1109-1121 Ephraim, Y , Malah, D (1985),” Speech enhancement using a minimum meansquare error log-spectral amplitude estimator,” IEEE_J_ASSP, Vol 33 , pp 443445 D Middleton , F Esposito (1968), “Simultaneous optimum detection and estimation of signals in noise,” IEEE Trans Inf Theory, vol IT-14, no 3, pp 434– 444 R J McAulay , M L Malpass (1980), Speech enhancement using a softdecision noise suppression filter,” IEEE Trans Acoustic, Speech and Signal Processing, Vol ASSP-28, No 2, pp 137-145 Cohen, I , Berdugo, B (2001) “Speech enhancement for non-stationary noise environments,” Signal Processing , Vol 81 , pp 2403-2418 Colin Breithaupt, Timo Gerkmann, Rainer Martin (2007), “cepstral Smoothing of Spectral Filter Gains for Speech Enhancement Without Musical Noise,” IEEE Signal Processing Letters, Vol 14, Issue 12, pp 1036-1039 10 Haykin (2002), S., Adaptive Filter Theory, Prentice Hall 72 Luận văn thạc sỹ khoa học 11 Widrow, B Glover, J R.; McCool, J M.; Kaunitz, J Williams, C S Hearn, R H Zeidler, J R Dong, E , Goodlin, R C (1975),“ Adaptive noise cancelling: Principles and applications,” IEEE_J_PROC , Vol 63 , pp 1692-1716 12 Sambur, M.(1978), “Adaptive noise canceling for speech signals,” IEEE_J_ASSP, Vol 26 , pp 419-423 13 Hoya, T Loke, Y Chambers, J A , Naylor, P A (1998), “Application of the leaky extended LMS algorithm in stereophonic acoustic echo cancellation,” Signal Processing , Vol 64 , pp 87-91 14 Dendrinos, M Bakamidis, S ,Carayannis, G (1991), “Speech enhancement from noise: a regenerative approach,” Speech Communication , Vol 10 , pp 45-67 15 Ephraim, Y ,Van Trees, H (1995), “A signal subspace approach for speech enhancement,” IEEE Trans Speech and Audio Processing , Vol , pp 251-266 16 Jensen, S H.; Hansen, P C.; Hansen, S D , Sorensen, J A (1995), “Reduction of broad-band noise in speech by truncated QSVD,” IEEE_J_SAP, Vol , pp 439448 17 Hansen, P S K (1997), “Signal Subspace Methods for Speech Enhancement,” Lyngby 18 Hu, Y , Loizou, P (2002), “A subspace approach for enhancing speech corrupted by colored noise,” Signal Processing Letters, IEEE , Vol , pp.204-206 19 Lev-Ari, H , Ephraim, Y.(2003) “Extension of the signal subspace speech enhancement approach to colored noise,” IEEE Signal Processing Lett , Vol 10 , pp 104-106 20 Mittal, U , Phamdo, N (2000), “Signal/noise KLT based approach for enhancing speech degraded by colored noise,” IEEE_J_SAP , Vol , pp 159-167 21 Rezayee, A , Gazor, S (2001), “An adaptive KLT approach for speech enhancement,” IEEE_J_SAP , Vol , pp 87-95 22 Gibson, J D Koo, B , Gray, S D (1991) “Filtering of colored noise for speech enhancement and coding,” IEEE_J_SP , Vol 39 , pp 1732-1742 73 Luận văn thạc sỹ khoa học 23 Yasmin, A Fieguth, Deng, L (1999), “Speech enhancement using voice source models,” ICASSP , Vol , pp 797-800 24 Fant, G Liljencrants, J., Lin, Q (1985), “A four-parameter model of glottal flow,” STL-QPSR , Vol 26 , pp 1-13 25 Shen, X., Deng, L (1999), “A dynamic system approach to speech enhancement using the Hinfin; filtering algorithm,” , IEEE_J_SAP , Vol , pp 391-399 26 Attias, H Deng, L Acero, A.,Platt, J (2001), “A new method for speech denoising and robust speech recognition using probabilistic models for clean speech and for noise,” Proc Eusrospeech , pp 1903-1906 27 Ephraim, Y Malah, D.,Juang, B (1989), “On the application of hidden Markov models for enhancing noisy speech,” IEEE_J_ASSP , Vol 37 , pp 1846-1856 28 Deng, L Droppo, J ,Acero, A (2004), “Enhancement of log Mel power spectra of speech using a phase-sensitive model of the acoustic environment and sequential estimation of the corrupting noise,” Speech and Audio Processing, IEEE Transactions on , Vol 12 , pp.133-143 29 Deng, L Droppo, J.,Acero, A (2000), “Recursive noise estimation using iterative stochastic approximation for stereo-based robust speech recognition,” Proc IEEE Workshop on Automatic Speech Recognition and Understanding , pp 81-84 , 30 Lotter, T Benien, C Vary, P (2003), “Multichannel speech enhancement using Bayesian spectral amplitude estimation,” ICASSP , Vol 31 Chen, B.,Loizou, P C (2005), “Speech Enhancement Using a MMSE Short Time Spectral Amplitude Estimator with Laplacian Speech Modeling,” ICASSP , Vol , pp 1097-1100 32 Martin, R (2005), “Speech Enhancement Based on Minimum Mean-Square Error Estimation and Supergaussian Priors,” IEEE Trans Speech and Audio Processing , Vol 13 , pp 845-856 74 Luận văn thạc sỹ khoa học 33 Cohen, I (2003), “Noise spectrum estimation in adverse environments: improved minima controlled recursive averaging, ” IEEE Trans on Speech and Audio Processing , Vol 11 , pp 466-475 , 2003 34 I McCowan, D Moore, and S Sridharan (2000), “Speech enhancement using Near-field Superdirectivity with an Adaptive Sidelobe Canceler and Post-filter” In Proceedings of the 2000 Australian International Conference on Speech Science and Technology, December 35 Lucas Parra, Clay Spence (2000), "Convolutive blind source separation of nonstationary sources", IEEE Trans on Speech and Audio Processing pp 320-327, May 2000 US Patent US6167417 75 ... thạc sỹ khoa học 2.4 .Các phương pháp sử dụng mơ hình tiếng nói Các phương pháp nâng cao chất lượng tiếng nói sử dụng mơ hình tiếng nói cách sử dụng thông tin ban đầu tiếng nói số trường hợp thêm... VỀ CÁC PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI SỬ DỤNG MỘT MICROPHONE 15 2.1 .Các phương pháp thao tác miền phổ biên độ 16 2.2 .Các phương pháp sử dụng lọc thích nghi 18 2.3 .Các phương. .. phương pháp thao tác miền phổ biên độ, phương pháp sử dụng lọc thích nghi, phương pháp phân li không gian con, phương pháp sử dụng mơ hình tiếng nói, số phương pháp khác 2.1 .Các phương pháp thao

Định dạng
Số trang	77
Dung lượng	1,73 MB