Nghiên cứu các phương pháp nâng cao chất lượng tiếng nói

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGÔ THỊ LÊ NGHIÊN CỨU CÁC PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH: ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN Người hướng dẫn: TS.Nguyễn Quốc Cường Hà Nội – Năm 2012 Luận văn thạc sỹ khoa học LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Nghiên cứu phương pháp nâng cao chất lượng tiếng nói” cơng trình nghiên cứu riêng tơi, hướng dẫn trực tiếp TS Nguyễn Quốc Cường – Đại học Bách Khoa Hà Nội Các số liệu, kết nghiên cứu trình bày luận văn trung thực chưa công bố cơng trình nghiên cứu khác Học viên Ngô Thị Lê Luận văn thạc sỹ khoa học MỤC LỤC LỜI CAM ĐOAN DANH MỤC KÍ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC HÌNH VẼ PHẦN MỞ ĐẦU Chương Giới thiệu tổng quan nâng cao chất lượng tiếng nói .8 1.1 Nâng cao chất lượng tiếng nói .8 1.2 Tại phải nâng cao chất lượng tiếng nói .9 1.3 Lịch sử phát triển nâng cao chất lượng tiếng nói 10 1.4 Ứng dụng nâng cao chất lượng tiếng nói 10 1.5 Đánh giá chất lượng hệ thống nâng cao chất lượng tiếng nói 11 Chương Trình bày khái quát phương pháp nâng cao chất lượng tiếng nói sử dụng mảng míc 12 2.1 Loại bỏ nhiễu thích nghi (ANC) 13 2.1.1 Multichannel adaptive noise cancellation (MANC) 14 2.1.2 Multichannel crosstalk resistant ANC (MCRANC) 16 2.2 Nâng cao chất lượng tiếng nói sử dụng phương pháp băng thơng nhỏ subband .22 2.3 Phân tích thành phần độc lập 24 2.3.1 Mơ hình phân tích trộn 24 2.3.2 Phân tách nguồn 26 2.4 Beamforming .29 Chương Trình bày thuật tốn sử dụng phương pháp beamformer 31 3.1 Delay and Sum beamforming (DSB) 31 3.2 Generalized Sidelobe Canceller GSC 34 3.2.1 Cấu trúc GSC 34 3.2.2 Thuật tốn tìm hàm truyền 37 3.3 MVDR (minimum variance distortionless response) .38 3.4 Post-filter 40 3.4.1 Nguyên lý 40 Luận văn thạc sỹ khoa học 3.4.2 Zelinski post-filter .41 3.4.3 Bộ lọc post-filter dựa vào gắn kết môi trường nhiễu 43 3.4.4 Multimicrophone postfilter 44 Chương Các thuật tốn xác định vị trí nguồn thời gian trễ tín hiệu 49 4.1 Thuật tốn xác định vị trí nguồn 49 4.1.1 Hàm trọng lượng GCC PHAT 49 4.1.2 Xác định vị trí nguồn dựa vào ML TDOA .50 4.1.3 Xác định vị trí nguồn dựa vào SRP 51 4.1.4 Thuật toán SRP-PHAT 52 4.2 Thuật toán ước lượng thời gian trễ TDE 54 4.2.1 Tương quan chéo CC (Cross-correlation) 54 4.2.2 Phương pháp generalized cross-correlation GCC 54 Chương Kết mô 56 Chương Thuật toán cải thiện từ thuật toán GSC 58 6.1 Tần số âm 58 6.2 Bộ lọc thích nghi ràng buộc (LCAF) 58 6.3 Phương pháp đề xuất 60 6.4 Kết mô 62 Chương Hướng phát triển nâng cao chất lượng tiếng nói .64 Tài liệu tham khảo .65 Luận văn thạc sỹ khoa học DANH MỤC KÍ HIỆU, CÁC CHỮ VIẾT TẮT ANC : Adaptive noise cancellation BSS : Blind sources seperate CC : Cross-correlation CLAF : Constrained adaptive filter DOA : Direct of arrival DSB : Delay and Sum beamforming GCC : Generalized cross-correlation GSC : Generalized Sidelobe Canceller HSP : Having speech periods IMCRA : Improved Minimum Controllers Recursive Averaging LCMV : Linear Constrained Minimum Variance MANC : Multichannel adaptive noise cancellation MCRANC : Multichannel crosstalk resistant ANC MCRA : Minimum Controllers Recursive Averaging MMSE : Minimum Mean Square Error MVDR : Minimum variance distortionless response NSP : Non speech periods OMLSA : Optimal Modified Log-Spectral Amplitude PESQ : Perceptual Evaluation of Speech Quality RTF : Relative transfer function SS : Spectral Subtraction TBRR : Transient beam-to-reference ratio TDE : Time delay estimation VAD : Detector Voice Activity Luận văn thạc sỹ khoa học DANH MỤC HÌNH VẼ Hình 2.1 Sơ đồ loại bỏ nhiễu thích 15 Hình 2.2 Lan truyền tín hiệu nhiễu tiếng nói từ nguồn phát tới míc thu 16 Hình 2.3 Cấu trúc MCRANC 18 Hình 2.4 Cấu trúc phương pháp nâng cao chất lượng tiếng nói sử dụng băng thơng dùng 23 Hình 2.5 Mơ hình BSS trộn tức 24 Hình 2.6 Mơ hình BSS trộn xoắn 25 Hình 2.7 Mơ hình phân tích Feed-forward 27 Hình 2.8 Mơ hình cấu trúc feedback 28 Hình 3.1 Hướng truyền sóng 31 Hình 3.2 Delay and sum beamformer 32 Hình 3.3 Cấu trúc GSC 34 Hình 3.4 Nguồn nhiễu mảng nhiều míc, nhiều đường truyền 40 Hình 3.5 Fixed – sum beamforming với post-filter 41 Hình 3.6 Sơ đồ multimicrophone postfilter 45 Hình 5.1 Tín hiệu thu sau mảng míc 56 Hình 5.2 Tín hiệu thu sau sử dụng phương pháp DSB 56 Hình 5.3 Tín hiệu thu sau sử dụng phương pháp GSC 57 Hình 6.1 Cấu trúc lọc ràng buộc 59 Hình 6.2 Sơ đồ thuật toán 61 Hình 6.3 Tín hiệu thu từ mảng míc 62 Hình 6.4 Sau sử dụng phương pháp GSC cải tiến kết thu sau 63 Hình 6.5 Tín hiệu sau sử dụng phương pháp OLMSA 63 Luận văn thạc sỹ khoa học PHẦN MỞ ĐẦU Lí chọn đề tài Tiếng nói phương tiện giao tiếp tự nhiên người, việc sử dụng tốn điều khiển thiết bị mong muốn người Tuy nhiên, môi trường tồn nhiễu tiếng ô tô, tiếng động cơ,… với cường độ khác làm cho chất lượng tiếng nói bị giảm xuống Một tốn đặt nâng cao chất lượng tiếng nói tốt Nâng cao chất lượng tiếng nói lĩnh vực nghiên cứu tồn từ lâu đạt nhiều thành tựu đáng kể, ứng dụng nhiều thực tế Một số ứng dụng kể đến áp dụng cho máy trợ thính, mã hóa tiếng nói hay hệ thống nhận dạng tiếng nói tự động mà ứng dụng cho toán giao tiếp người robot, hệ thống truyền nhận tiếng nói VoiIP… Việc nghiên cứu triển khai phương pháp nâng cao chất lượng tiếng nói PC có tảng vững chắc, với phát triển nhanh chóng khoa học kĩ thuật, tốc độ tính tốn phương pháp máy PC ngày cải thiện đạt nhiều kết tốt Lịch sử nghiên cứu Các phương pháp nâng cao chất lượng tiếng nói nghiên cứu 30 năm giới có kết khả quan Mục đích nghiên cứu luận văn Nghiên cứu đánh giá phương pháp nâng cao chất lượng tiếng nói sử dụng mảng míc Lựa chọn phương pháp phù hợp cho hệ thống nhận dạng tiếng nói Các đóng góp Đã đề xuất thuật toán nâng cao chất lượng tiếng nói có ưu điểm so với phương pháp có đặc biệt ứng dụng cho hệ thống nhận dạng tiếng nói thuật tốn cịn có cải tiến đánh giá cảm nhận tai người Luận văn thạc sỹ khoa học Phương pháp nghiên cứu Nghiên cứu dựa phương pháp beamformer nghiên cứu nhiều Đặc biệt thuật toán sử dụng nhiều thực tế thuật toán bám sát thay đổi nhiễu, di chuyển nguồn phát tiếng nói Nâng cao chất lượng tiếng nói vấn đề quan trọng giao tiếp lĩnh vực xử lý tiếng nói Nó thường biết đến làm suy yếu tín hiệu nhiễu so với tín hiệu tiếng nói, tách tín hiệu nhiễu khỏi tín hiệu thu từ microphone Tuy nhiên, nghiên cứu để nâng cao chất lượng tiếng nói gặp khó khăn việc nâng cao tín hiệu tiếng nói so với nhiễu tách tiếng ồn xung quanh đối tượng phát tiếng nói khơng đứng n để mơ hình hóa Trong lĩnh vực này, hai kỹ thuật nâng cao tín hiệu tiếng nói giới thiệu tảng Một phương pháp trừ phổ, phương pháp phổ biến tất phương pháp sử dụng míc Hai phương pháp beamforming, phương pháp sử dụng lọc khơng gian thời gian, sử dụng nhiều míc Trừ phổ có ưu điểm cần sử dụng míc, thuật tốn loại bỏ tiếng ồn đơn giản, tín hiệu xử lý có SRN cải thiện Beamforming kỹ thuật việc nâng cao tín hiệu tiếng nói, đơn giản tạo thành chùm tia tới người nói Tuy nhiên, trừ phổ có nhược điểm quan trọng khơng thể tránh khỏi biến dạng tiếng nói sau xử lý, gọi musical – noise, gây phiền nhiễu cho tai người Beamforming nâng cao tín hiệu tiếng nói mà khơng cần số lượng lớn míc Luận văn thạc sỹ khoa học Chương Giới thiệu tổng quan nâng cao chất lượng tiếng nói 1.1 Nâng cao chất lượng tiếng nói Lời nói cơng cụ hiệu thuận tiện cho giao tiếp người Nó đóng vai trị quan trọng sống hàng ngày Tuy nhiên, “chúng ta sống giới ồn ào” Tín hiệu tiếng nói bị xuống cấp tiếng ồn Ví dụ, sử dụng máy ghi âm, đàm, giao diện máy tính nhiều cơng cụ phát triển khác, tín hiệu tiếng nói mong muốn thường bị xuống cấp môi trường tiếng ồn, tiếng ồn máy nội Rất cần thiết phải ngăn chặn hủy bỏ tiếng ồn tín hiệu thu trước chuyển, phục hồi hiểu Vì vậy, gọi nâng cao tiếng nói nhằm mục đích nâng cao chất lượng hiểu tín hiệu bị suy thối Nó có ứng dụng rộng Trong lĩnh vực truyền thông, điện thoại bàn, điện thoại di động, VoIP, máy trợ thính, viễn thơng địa phương đường dài, điều khiển máy giọng nói, nhận dạng giọng nói tự động… Tuy nhiên, nâng cao tín hiệu tiếng nói mục tiêu phức tạp khó khăn cho nhà nghiên cứu Nghiên cứu làm việc lĩnh vực bắt đầu vào năm 1960 Đến bây giờ, nhiều công việc thực nhiều cách tiếp cận đề xuất Tuy nhiên cách chưa giải hết vấn đề lĩnh vực Nhiều thuật tốn sử dụng kênh tín hiệu để nâng cao tiếng nói Phương pháp khơng thể cải thiện chất lượng tính hiểu (intelligibility) tín hiệu thời gian Trong thực tế, công việc nghiên cứu gần chứng minh việc giảm tiếng ồn đạt với việc chấp nhận biến dạng giọng nói sử dụng kênh tín hiệu Nói cách khác, khơng thể tránh biến dạng giọng nói đàn áp tiếng ồn Kết là, hiệu phương pháp tiếp cận kênh nâng cao tiếng nói hạn chế số phương pháp tiếp cận sử dụng ứng dụng thực tế Để nâng cao hiệu việc tăng cường tiếng nói, phương pháp sử dụng míc mảng nhiều míc Rõ ràng mảng míc Luận văn thạc sỹ khoa học đạt hiệu suất tốt cung cấp cho nhiều kênh tín hiệu Nó khơng cung cấp thơng tin thời gian mà cịn tính khơng gian tín hiệu Trong năm gần chứng minh mặt lý thuyết rằng, mảng míc ngăn chặn việc tiếng ồn bóp méo tiếng nói tối thiểu Hầu hết phương pháp thuật toán cho mảng nhiều míc phát biểu nâng cao chất lượng tiếng nói sử dụng mảng míc lớn Một mảng míc có kích thước lớn có nhiều hạn chế ứng dụng Nếu mảng míc ứng dụng điện thoại di động, nghe viện trợ PDA, mảng míc phải đủ nhỏ để nhúng vào thiết bị nhỏ Vì vậy, nghiên cứu phương pháp thuật toán nâng cao chất lượng tiếng nói sử dụng mảng nhiều míc có kích thước nhỏ có tầm quan trọng lớn có giá trị lớn Chúng ta gọi mảng micro, nhúng vào điện thoại, điện thoại di động, máy trợ thính… Mảng míc có khoảng cách míc xa nói chung 8cm thường sử dụng míc Nhưng có số ứng dụng sử dụng mảng míc dài vài mét sử dụng hàng trăm míc Luận án tập trung vào việc nghiên cứu phương pháp thuật toán cho tốn nâng cao chất lượng tiếng nói sử dụng mảng míc Từ đưa số thử nghiệm đánh giá hiệu chất lượng thuật tốn nâng cao tín hiệu tiếng nói sử dụng mảng míc 1.2 Tại phải nâng cao chất lượng tiếng nói Chất lượng việc trao đổi thơng tin tiếng nói người nói người nghe, người máy thường bị giảm sút nhiều mơi trường có nhiều tiếng ồn, chất lượng đường truyển, gây đến cảm giác khó chịu cho người nghe làm giảm chất lượng hệ thống giao tiếp người máy Trong hệ thống giao tiếp người máy chất lượng trình trao đổi thông tin bị dẫn đến thông tin đưa sai lệch làm cho hệ thống hoạt động khơng theo mong muốn Do vấn đề cải thiện chất lượng q trình trao đổi thơng tin tiếng nói đặt cấp thiết nhằm đưa lại kết Luận văn thạc sỹ khoa học có tiếng vang Khi cải thiện chất lượng việc ước lượng chậm trễ, khơng đủ xác định nguồn dựa vào TDOA hiệu nhiều điều kiện bất lợi khác Hướng tiếp cận SRP DSB beamformer yêu cầu khoảng thời gian phân tích ngắn thể không cảm nhận cao điều kiện môi trường, không cho phép sử dụng mức đa đường truyền Thuật tốn SRP filter-and-sum beamformer tăng thêm tính linh hoạt thiết kế lọc thường tối ưu hóa SNR điều kiện có nhiễu, phụ thuộc vào hiểu biết nội dung tín hiệu kênh truyền Mục đích thuật tốn SRP-PHAT kết hợp lợi steered beamformer cho vị trí nguồn với tín hiệu điều kiện phụ thuộc mạnh mẽ trọng lượng PHAT Thuật toán SRP FAS beamformer: = P (q) N N ∞ ∑∑ ∫ Ψ (ω ) X (ω ) X (ω ) e ω ( =l = k −∞ lk ∗ k l j ∆ k −∆l ) dω (4.17) Với Ψ lk (ω ) = Gl (ω ) Gk∗ (ω ) tương tự hàm trọng lượng GCC hai kênh Trong trường hợp nhiều kênh, hàm trọng lượng PHAT: (4.18) Ψ lk (ω ) = X l (ω ) X k∗ (ω ) với Gn (ω ) = X n (ω ) Hàm SRP-PHAT: N N = P ( q ) 2π ∑∑ Rlk ( ∆ k − ∆ l ) =l = k 53 (4.19) Luận văn thạc sỹ khoa học 4.2 Thuật toán ước lượng thời gian trễ TDE 4.2.1 Tương quan chéo CC (Cross-correlation) Phương pháp CC đơn giản thuật tốn TDE phát triển sớm Nó xây dựng dựa mơ hình đường truyền với hai thiết bị thu Giả sử có khối tín hiệu quan sát thởi điểm k, = xn ( k )  xn ( ) , xn (1) ,L , xn ( l ) ,L , xn ( K − 1)  =  xn ( k ) , xn ( k + 1) ,L , xn ( k + K − 1)  T (4.20) T Với n = 0, K kích thước khối Sau ước lượng thời gian trễ theo phương pháp CC hai tín hiệu quan sát = τˆCC arg max Ψ CC ( m ) (4.21) m Với Ψ CC= ( m ) E { x0 ( l ) x1 ( l + m )} hàm CC x0(l) x1(l), E{.} kỳ vọng toán học τˆCC ước lượng thời gian trễ τ, m ∈ [ −τ max ,τ max ] τ max thời gian trễ lớn Trong thực tế, hàm CC ước lượng cách lấy trung bình theo thời gian  K − m −1  K ∑ x0 ( l ) x1 ( l + m ) ,  l =0 ˆ ( m) = Ψ  K −1 CC 1 x0 ( l ) x1 ( l + m ) ,  K l∑ = −m m≥0 (4.22) m

Định dạng
Số trang	68
Dung lượng	1,38 MB