Nâng cao tín hiệu tiếng nói bằng giảm nhiễu phi tuyến dựa vào miền Wavelet

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	6
Dung lượng	625,6 KB

Nội dung

Trong bài báo này, các thuật toán nâng cao tiếng nói được đề xuất bởi việc dùng biến đổi các gói wavelet để tang khả năng phân tích tín hiệu. Trong khi đó, phương pháp lọc thống kê cảm quan dựa trên wavelet cũng được khai thác để lấy được sự ước lượng ngưỡng nhiễu tốt hơn và thuật toán nén tối toán được áp dụng để nén nhiễu. Các phương pháp đánh giá khách quan dùng PESQ và SegSNR chỉ ra rằng các kết quả của các thuật toán đã đề xuất đạt được những kết quả tốt về chất lượng khi so sánh với các thuật toán khác trong miền tần số. Mời các bạn cùng tham khảo!

Thảo QuốcGia Gia2015 2015về vềĐiện Điện Tử, Tử,Truyền Truyền Thông Thông Thông TinTin (ECIT 2015) HộiHội Thảo Quốc vàCông CơngNghệ Nghệ Thơng (ECIT 2015) Nâng Cao Tín Hiệu Tiếng Nói Bằng Giảm Nhiễu Phi Tuyến Dựa Vào Miền Wavelet Tuan V Tran Tuan V Pham Faculty of Electronic and Telecommunication Danang University of Science and Technology Da Nang, Viet Nam tuantran.kl@engineer.com Faculty of Electronic and Telecommunication Center of Excellence Danang University of Science and Technology Da Nang, Viet Nam pvtuan@dut.udn.vn Tóm tắt— Trong báo này, thuật tốn nâng cao tiếng nói đề xuất việc dùng biến đổi gói wavelet để tang khả phân tích tín hiệu Trong đó, phương pháp lọc thống kê cảm quan dựa wavelet khai thác để lấy ước lượng ngưỡng nhiễu tốt thuật toán nén tối toán áp dụng để nén nhiễu Các phương pháp đánh giá khách quan dùng PESQ SegSNR kết thuật toán đề xuất đạt kết tốt chất lượng so sánh với thuật tốn khác miền tần số Bên cạnh đó, việc đánh giá chủ quan thực việc dùng Mean Opinion Score (MOS) kết đạt từ việc kiểm tra khơng cho thấy có kết luận với phương pháp đánh giá khách quan khẳng định việc tin tưởng vào độ xác phương pháp đánh giá khách quan bày thuật tốn giúp tối thiểu hóa việc méo tiếng nói bị gây nhiễu dư đề cập [4] Trong đó, Kirubagari vaf Subathra dùng kết hợp phương pháp tối thiểu hóa sai số bình phương lọc trừ để nâng cao chất lượng tiếng nói đề cập [5] Phương pháp biến đổi Wavelet Dual tree complex đề xuất Tasmaz báo [6] Một kỹ thuật khác dựa Wavlet Robust hybrid adaptive perceptual wavelet packet threshold đề xuất Jain B đề cập [7] Trong báo này, thuật toán đề xuất dựa vào việc sử dụng phân tích gói wavelet để hỗ trợ cho q trình phân tích tín hiệu, thuật tốn ước lượng nhiễu sử dụng để xác định ngưỡng tốt cuối thuật toán giảm nhiễu dùng để hồn thành hệ thống nâng cao tín hiệu tiếng nói Sơ đồ thuật tốn đề xuất mơ tả hình 1.1 phía dưới: Từ khóa—Wavelet Packet, Percentile Filter, Voice Activity Detection , Wavelet thresholding, Wavelet Shrinking I GIỚI THIỆU Vẫn đề xử lý tiếng nói bị anh hưởng nhiều loại nhiễu thách thức lớn thuật tốn nâng cao tiếng nói phát triển nghiên cứu để hỗ trợ tốt cho ứng dụng nhận dạng tiếng nói, nhận dạng người nói Tại báo này, thuật tốn nâng cao tiếng nói dựa vào việc phân tích gói wavelet kết hợp với kỹ thuật để đạt ngưỡng nhiễu tốt đề xuất để giảm nhiễu tiếng nói Có nhiều phương pháp tiếp cận để thực việc giảm nhiễu cho việc nâng cao tiếng nói như: Thực việc phân tích tín hiệu nhiễu nén nhiễu bị ảnh hưởng nhiễu Gaussian nhiễu thực tế dùng lọc hồi qui đề suất Suman M Khan H [1]; kỹ thuật khác mà McCallum M Guillemin B muốn giới thiệu báo sô [2] thuật tốn Bayesian STSA dùng mơ hình tiếng nói a stochastic – deterministic để làm tiên đốn trước thơng tin việc xem xét non-zero mean Việc ước tiếng nói băng tương đồng với giảm nhiễu thông qua việc xử lý MVDR kỹ thuật khác Schasse A Martin R đề xuất [3] Yong Zhang, Yi Liu trình Hình 1.1: Sơ đồ thuật tốn 169 ISBN: 978-604-67-0635-9 169 Thảo QuốcGia Gia2015 2015về vềĐiện Điện Tử, Tử,Truyền Truyền Thông Thông Thông TinTin (ECIT 2015) HộiHội Thảo Quốc vàCông CôngNghệ Nghệ Thông (ECIT 2015) Trong đó, I0(.) I1(.) ký hiệu cho hàm Bessel bậc Bài báo chia thành năm phần Phân II nói thuật tốn giảm nhiễu miền tần số việc cập nhật nhiễu Các thuật toán miền wavelet giới thiệu phần III Kế tiếp, phần bốn cho thấy kết thí nghiệm Kết luận hướng nghiên cứu tương lai thể phần V  k định nghĩa sau : II GIẢM NHIỄU TRONG MIỀN TẦN SỐ Với Chủ đề nghiên cứu báo nhiễu cộng Khi nhìn vào hình 2.1, nhiễu tín hiệu tiếng nói y (n) nhận từ microphone tạo từ tín hiệu x (n) cộng với nhiễu d (n):  k vk  k k 1 k k định nghĩa a priori SNR a posteriori SNR: k  k  k k X 0 k  d ( k )  X k  exp  p ( X k ,  xk )    x (k )   x (k )  Xk   vk k v v v exp( k )[(1v  k )I0 ( k ) v  k I1 ( k )] Yk 2 E D( k )  (2.8) (2.10) M M 1 Y ( ) i 0 i (2.11) Sau thực so sánh biên độ phổ nhiễu ước lượng với biên độ phổ tín hiệu bị nhiễu: N(i)  0.9N(i 1)  0.1N(i) (2.3) (2.12) Nếu T 12dB [9] frame khơng phải frame có tiếng (2.4) nói, ta cập nhật lại nhiễu ước lượng trước the cơng tức VAD thực tốt môi trường Và áp dụng định lý Bayes ta có ước lượng phổ biên độ tiếng nói tăng cường: Xˆ k  E[ X k | Yk ]   Di ( )  p( Xk ,xk Yk )dxkd Xk (2.2) 2  exp  Yk  X k e j xk   ( ) k  d   Yk a) Voice Activity Detection (VAD) Nhiễu ước lượng lúc ban đầu cách lấy trung bình biên độ phổ tín hiệu bị nhiễu: Với hàm mật độ xác suất: p (Yk | X k ,  xk )   d (k )  (2.7) B Các kỹ thuật ước lượng cập nhật nhiễu  k để đơn giản ký hiệu) Xˆ k  E Xk Yk    Xk p( Xk Yk )d Xk       exp( t )  k exp  Xˆ k  dt  Yk   k    k t  độ thật tín hiệu tần số  k (chỉ số k dùng thay  2 Xˆ k  exp E ln  X k YK    Yk  Xˆ k X k biên độ phổ ước lượng phổ biên Trong đó,    x (k ) E X ( k )   d (k ) E D( k ) b) Log-MMSE MMSE dàng thực theo tốn hoc khơng mang đến ý nghĩa việc cải thiện chất lượng tiếng nói Lý tiếng nói có nhiều thành phần biên độ thấp mà thành phần đống vai trò định chất lượng độ dễ nghe tiếng nói Do đó, Ephraim Malah đề xuất phương pháp có ý nghĩa việc dùng Log- MMSE [8]: (2.9) e  E  log X k   log Xˆ k    Khi đó, Hình 2.1: Mơ hình nhiễu cộng A MMSE and Log-MMSE Kết đề xuất [2] nhiều nghiên cứu biên độ phổ thời gian ngắn có ảnh hưởng mạnh đến chất lượng tính dễ nghe tiếng nói Bởi vậy, vài nhà nghiên cứu đề xuất phương pháp optimal non-linear để cải thiện phổ từ phổ tín hiệu nhiễu a) Minimum Mean Sequare Error (MMSE) Ước lượng phổ biên độ MMSE(Minimum Mean Square Error) tối thiểu hóa sai số bình phương trung bình biên độ thật biên độ ước lượng: (2.1) e  E  X  Xˆ    (2.6) nhiễu ổn định không tốt mơi trường thực tế lục percentile để xuất để khắc phục nhược điểm (2.5) b) Percentile Filter 170 170 HộiThảo Thảo Quốc Quốc Gia và Công Nghệ Thông Tin (ECIT 2015)2015) Hội Gia 2015 2015về vềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông Công Nghệ Thông Tin (ECIT Bộ lọc Percentile Filter [10] đề xuất cho việc ước lượng phổ nhiễu miền tần số Thuật toán thực theo bước sau: Step : Tại frame λ, tính Y ( , k )2 khung tiếng nói bị số thuật tốn xác định ngưỡng, ngưỡng sau ước lượng dùng để nén hệ số nhiễu tất kênh Wavelet Cuối cùng, tín hiệu xử lý phục hồi Wavelet Packet Recovery thực hình sau: nhiễu, hệ số làm mượt  (, k) , phổ công suất dược làm trơn P(, k) P (  , k )   P (   1, k )  (1   ) Y ( , k ) Trong đó:  ( , k )   c ( )  (2.13)  max  c ( )  P(  1, k ) / ˆ d2 (  1, k )  1 M 1      P (   1, k ) /  Y (  , k )   k 0  k 0  M 1 (2.14) ˆ d2 (  1, k ) ước lượng nhiễu khung   Hình 3.1: Sơ đồ thuật tốn PSWF Step 2: Ước lượng nhiễu Percentile Filter: Gọi B Các thuật toán xác định ngưỡng Hai phương pháp phổ biến sử dụng ngương wavelet ngưỡng cứng ngưỡng mềm Ngưỡng mềm nén hệ số a) Thuật toán xác định ngưỡng cứng Thuật toán ngưỡng cứng thực biểu thức sau: Ds (i ) giá trị vị trí Nf frames lưu trữ đêm b Trong i số chạy khung λ liên tiếp có nhớ đệm b Thực ước lượng percentile mức nhiễu sau: - Sắp xếp Ds (i ) theo thứ tự tăng dần qua toàn đệm thứ b để có (3.1) Ds (i ') with i’= [1, 2, 3… N f ] b) Thuật toán xác định ngưỡng mềm Thuật toán ngưỡng mềm định nghĩa sau: Xác định mức ngưỡng thích nghi Tq ( b ) (i ) cách lấy phần trăm q (b)th theo công thức: Tq (b ) (i)  Ds (i ') | i '   q(b) N f  q(b) lựa chọn cho thích nghi với đệm để đạt (3.2) mức ước lượng tốt Tiếp theo q(b) định nghĩa: (2.15) q(b)  i ' If Ds (i ')  Ds (i ' 4)   C Giảm nhiễu thích nghi theo µ - Law Một thuật toán khác nhằm giảm nhiễu dựa Wavelet Hệ số q=0.35 chọn sau thực bước biết cải thiện thuật toán ngưỡng cứng Giả sử nhiễu không thay đổi nhanh tiếng nói theo hình 3.2 theo µ-law Qui luật việc nén thể thời gian, mức ngưỡng nhiễu ước lượng theo phần trăm hàm posteriori làm phẳng cách áp dụng mơ hình hồi qui bậc với hệ số α 0.96: Tq ( b ) (i )   Tq ( b 1) (i  1)  (1   )Tq ( b ) (i )  k ,i sau: if  k ,i  1 ,   H k ,i   (1   k ,i ) k , i  , if  k ,i  sgn Yk ,i ( p )  k ,i  k , i  (2.16) III GIẢM NHIỄU DỰA VÀO PHẦN TÍCH GĨI WAVELET (3.3) Trong đó: A Phương pháp dùng lọc wavelet thống kê có tính cảm quan Phương pháp đề xuất dựa việc phân tích tín hiệu nhiễu Wavelet Packet Decomposition mức nhiễu ước ượng từ gói wavelet tương đơng với hệ   k, i  Y k , i ( p) nghĩa [2]: 171 171 k , i áp dụng tham số  k , i định HộiHội Thảo Quốc vàCông CôngNghệ Nghệ Thông (ECIT 2015) Thảo QuốcGia Gia2015 2015về vềĐiện Điện Tử, Tử,Truyền Truyền Thông Thông Thông TinTin (ECIT 2015)    k ,i  exp     max| Y ( p ) |  p k ,i  ~ ~ max{  k ,i }   k ,i i  ~  k ,i A Kết đánh giá khách quan (3.4) Trong đó, Hàm mũ exp tự thích nghi với nhiễu ~ làm trơn chuẩn hóa  k ,i với số độ dốc  5.8 Hình 4.1: Các thuậ toán nén nhiễu đánh giá PESQ với mơi trường nhiễu BABBLE Trong hình 4.1, kết phương pháp PESQ cho thấy thuật tốn miền tần số có kết tốt thuật toán miền wavelet Kết thật ấn tượng với thuật toán NSS-PF Trong miền wavelet thuật tốn Shrinking – UT – PF có kết tốt cho thấy hiệu thuật toán khác miền wavelet SoftTh – PF có kết khơng mong đợi dùng để xử lý nhiễu môi trường nhiễu BABBLE B Kết đánh giá chủ quan Hình 3.2: Đặc tuyên hàm nén nhiễu miền wavelet IV KẾT QUẢ THÍ NGHIỆM VÀ ĐÁNH GIÁ Các thuật toán miền wavelet thuật toán cải thiện miền tần số sử dụng để xử lý tín hiệu nhiễu, tín hiệu nhiễu cung xây dựng sở theo tiêu chuẩn IEEE Những mẫu tín hiệu tiếng nói cộng vào loại nhiễu khác CAR, BABBLE, WHITE, STREET TRAIN Hơn nữa, nhiều mức nhiễu khác cho kết xác Những kết đánh giá thông qua phương pháp đánh giá khách quan PESQ SegSNR, phương pháp có độ ổn định tin cậy cao [11] nên IEEE khuyến cáo nên sử dụng để đánh giá tín hiệu tăng cường Những tín hiệu tăng cường sử dụng đẻ hỗ trợ cho việc đánh giá chủ quan với phương pháp Mean Opinion Score (MOS) Với biểu đồ hình 4.2, thấy kết sau thực khảo sát để hoàn thành việc đánh giá chủ quan Chúng ta có nhìn tổng quát nhìn vào biểu đồ này, kết thuật toán Shrinking – UT Hình 4.2: Biểu khảquả nhiễutốn thuật tốn – PF làm việc đồ tốtso vàsánh đạt kết tốtxử khilýthuật mức SNR 5dB trường nhiễu khác dùng để xử lý tín hiệuvới nhiễu các– mơi mà xét, đặc biệt xử lý tốt với loại nhiễu WHITE Nếu so sánh kết đánh giá đánh giá khách quan đánh giá chủ quan, thấy chúng gần có kết ví dụ kết Shrinking – UT – PF đạt kết cao với tín hiệu nhiễu BABBLE 172 172 HộiHội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) C So sánh kết đánh giá khách quan chủ quan câu thoại cộng nhiễu ban đầu Sau tiến hành tính giá trị trung bình số sở 30 câu ứng với mức SNR môi trường nhiễu, chúng tơi nói kết kiểm tra chúng tơi đảm bảo Những thuật tốn phân tích so sánh hiệu suất việc xử lý trực tiếp phương pháp đánh giá khách quan như: IS, CEP, LLR, WSS, PESQ SNRseg Sự đánh giá cho thấy thuậ toán miền tần số MMSE-PF cho kết hay hiệu suất xử lý tốt với giảm nhiễu lớn miền Wavelet thuật toán Shrinking – UT –PF cho thấy kết tốt thuật toán khác, đặc biệt thuật toán dùng để xử lý nhiễu WHITE Hơn nữa, thuật tốn cịn nén tốt hơn, tác động xấu đến tín hiệu gây méo tín hiệu đảm bảo tính dễ nghe tín hiệu sau xử lý Trong tương lai muốn nghiên cứu sâu để cải thiện giải pháp cho việc tối ưu khả nén nhiễu miền wavelet tiếp tục so sánh với thuật toán miền tần số để đánh giá hiệu việc nâng cao tín hiệu cho người nghe Chúng tơi thực việc đánh giá chủ quan kết mà đạt từ đánh giá giúp cho tin phương pháp đánh giá khách quan PESQ, SegSNR đáng tin cậy chúng tơi hồn tồn tin tưởng phương pháp sử dụng đánh giá thí nghiệm LỜI CÁM ƠN Chúng muốn gửi lời cám ơn đặc biệt đến PGS.TS Phạm Văn Tuấn ThS Võ Thị Diệu Hanh Nghiên cứu cho thấy thách thức khó khan thực Tất chúng tơi thật khơng thể hồn thành nghiên cứu khơng có giúp đỡ họ Hình 4.3: Biểu đồ so sánh khả xử lý nhiễu tương đồng phương pháp đánh giá SNR – 5dB Thơng qua việc quan sát hình ảnh mức 5dB so sánh với biểu đồ phía nhận tương đồng đánh giá khách quan đánh giá chủ quan Đặc biệt, hình ảnh cho thấy thuật toán miền tần số LogMMSE-PF NSS-PF đạt kết xử lý tốt với nhiễu BABBLE, Error bar thuật toán tương đồng biểu đồ phía thấy kết tương tự Thuật toán Shrinking – UT – PF (Optimal Shrinking) biểu đồ phía cho thấy kết lớn lại có chênh lệch lớn kết xác gần với kết đánh giá chủ quan TÀI LIỆU THAM KHẢO [1] Suman, M ; K.L Univ., Guntur, India ; Khan, H ; Latha, M.M ; Kumari, D.A “Performance analysis of enhanced noisy compressed speech signal corrupted by Gaussian and real world noise using recursive filter”,IEEE, p 340-348, Jan 2015 [2] Tasmaz, H.; Elektrik-Elektron Muhendisligi Bolumu, Adiyaman Univ Muhendislik Fak., Adyaman, Turkey, “Dual tree complex wavelet transform based speech V KẾT LUẬN enhancement”, IEEE, p 823 – 826, May 2015 Với báo này, chúng tơi trình bày kết đề xuất giải pháp để cải thiện chất lượng tiếng nói dựa vào phương pháp ước lượng giảm nhiễu phi tuyến tối ưu miền tần số miền wavelet Nội dung nghiên cứu tập trung vào việc nén nhiễu miền wavelet với ngưỡng mềm and ngưỡng cứng Bên cạnh đó, thuật tốn ước lượng Percentile Filter tích hợp vào bên hàm nén nhiễu để phát triển thuật toán như: NSS_PF, LogMMSE-PF, MMSE-PF, HardThr-PF, SoftThrPF and Shrinking-UT-PF Bằng việc dùng sở liệu lớn gồm 3600 câu thoại xử lý giảm nhiễu so với 600 [3] Schasse, A.; Inst of Commun Acoust, Ruhr-Univ Bochum, Bochum, Germany; Martin, R., “Estimation of Subband Speech Correlations for Noise Reduction via MVDR Processing”, IEEE, p 1355 – 1365, July 2014 [4] Yong Zhang; ShenZhen Key Lab of Intell Media & Speech, Peking Univ ShenZhen Res Inst., Shenzhen, 173 173 HộiHội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) [10] China ; Yi Liu, “A novel perceptual distortion [5] minimization speech enhancement algorithm”, IEEE, p Speech Recognition Using Adaptive Noise Threshold 1- 6, July 2014 Estimation and Wavelet Shrinkage", Proc IEEE ICCE, Kirubagari, B.; Dept of Comput Sci & Eng., Hoi an, Vietnam, p 04-06, Feb 2008 [11] Annamalai Univ., Annamalai Nagar, India ; Palanivel, S ; Subathra, N., “Speech enhancement 229 -238, Jan 2008 [12] subtraction filter”, IEEE, p – 7, Feb 2014 Priori SNR estimator”, IEEE Signal Processing Letters, of Auckland, Auckland, New Zealand; Guillemin, B vol 11, no.9, pp 725-728, Sept 2004 MMSE STFT [13] Speech Roorkee, Roorkee, India; Tripathy, M ; Anand, R.S., IEEE, p 1445 – 1457, July 2013 “A fuzzy mask based on wavelet packet for improving Jain, B.; Poornima A.K., of Eng., Sitapura, speech quality and intelligibility”, IEEE, p – 4, Feb “Robust hybrid adaptive 2014 Coll perceptual wavelet packet threshold to enhance speech [14] Pham T.V., Gernot Kubin, "WPD-based Noise in adverse noisy environment”, IEEE, p – 6, May Suppression Using Nonlinearly Weighted Threshold 2014 Quantile Estimation and Optimal Wavelet Shrinking", Bensty J., Jingdong Chen and Yiteng Arden Huang, Proc Interspeech, Lisboa, Portugal, p 4-8, Sep 2005 ‘Noise Reduction Algorithms in a Generalizaed [9] Singh, S.; Dept of Electr Eng., Indian Inst of Technol Enhancement with General A Priori Information”, India; Bansal, [8] Cohen I., “Speech enhancement using a noncausal a McCallum, M.; Dept of Electr & Comput Eng., Univ “Stochastic-Deterministic [7] Hu Y and Loizou P.C., “Evaluation of Objective Quality Measures for Speech Enhancement”, IEEE, p using minimum mean square error filter and spectral [6] Pham T.V., Gernot Kubin, Erhard Rank, "Robust [15] Zhang Jie; Coll of Electron & Inf Eng., Tongji Univ., Transform Domain”, IEEE Transaction on Audio, Shanghai, China ; Xiaoqun Zhao ; Jingyun Xu ; Zhang Speech, and Language Processing, vol.17, No.6, 2009 Yang, “Suitability of speech quality evaluation Steven F.Boll,“Suppression of Acoustic Noise in measures in speech enhancement”, IEEE, p 22-26, July Speech Using Spectral Subtraction”,IEEE, p 113 – 120, 2014 Jan 2003 174 174 ... nghĩa sau : II GIẢM NHIỄU TRONG MIỀN TẦN SỐ Với Chủ đề nghiên cứu báo nhiễu cộng Khi nhìn vào hình 2.1, nhiễu tín hiệu tiếng nói y (n) nhận từ microphone tạo từ tín hiệu x (n) cộng với nhiễu d (n):... để xử lý tín hiệu nhiễu, tín hiệu nhiễu cung xây dựng sở theo tiêu chuẩn IEEE Những mẫu tín hiệu tiếng nói cộng vào loại nhiễu khác CAR, BABBLE, WHITE, STREET TRAIN Hơn nữa, nhiều mức nhiễu khác... (2.16) III GIẢM NHIỄU DỰA VÀO PHẦN TÍCH GĨI WAVELET (3.3) Trong đó: A Phương pháp dùng lọc wavelet thống kê có tính cảm quan Phương pháp đề xuất dựa việc phân tích tín hiệu nhiễu Wavelet Packet

Ngày đăng: 27/04/2022, 10:07