NGHIÊN cứu xử lý TÁCH âm THANH được THU từ HAI NGUỒN PHÁT

70 136 2
NGHIÊN cứu xử lý TÁCH âm THANH được THU từ HAI NGUỒN PHÁT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN NGƠ HỒNG LÊ MINH NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT ĐỀ CƯƠNG KHÓA LUẬN THẠC SĨ Ngành: Khoa Học Máy Tính Mã ngành: 60.48.01.01 Người hướng dẫn khoa học: TS Đàm Quang Hồng Hải TP HỒ CHÍ MINH – 2016 NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT MỤC LỤC MỤC LỤC DANH MỤC CÁC CÔNG THỨC DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC CHỮ VIẾT TẮT 10 LỜI CAM ĐOAN 12 LỜI CÁM ƠN 13 MỞ ĐẦU 14 Chương I: TỔNG QUAN ÂM THANH SỐ 16 1.1 Tín hiệu âm số 16 1.2 Các kỹ thuật nâng cao chất lượng tiếng nói 21 1.3 1.2.1 Kỹ thuật nâng cao chất lượng tiếng nói đơn kênh 22 1.2.2 Kỹ thuật nâng cao chất lượng tiếng nói đa kênh 30 Beamformer 36 1.3.1 TDOA 38 1.3.2 GCC 39 1.3.3 PHAT 39 1.3.4 GCC-PHAT 39 1.3.5 SRP-PHAT 40 Chương II: XỬ LÝ ÂM THANH TRONG MIỀN THỜI GIAN VÀ TẦN SỐ 41 2.1 Biến đổi rời rạc Fourier (Discrete-Time Fourier Transform-DTFT) 41 NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT 2.2 Biến đổi theo dải tần (Subband transform) 42 2.3 Dàn Microphone mơ hình âm 46 Chương III: XÂY DỰNG ỨNG DỤNG TÁCH TÍN HIỆU ÂM THANH TỪ HAI NGUỒN PHÁT 52 3.1 Đặt vấn đề 53 3.2 SRP-PHAT cải tiến 54 3.3 Tối ưu chùm tia sử dụng thông tin nguồn hoạt động 57 3.4 Các kỹ thuật xác định nguồn âm 59 3.5 So sánh kết thực nghiệm 63 Chương IV: KẾT LUẬN VÀ KHUYẾN NGHỊ 66 TÀI LIỆU THAM KHẢO 68 NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT DANH MỤC CÁC CƠNG THỨC (1.1) Tín hiệu rời rạc biến đổi từ tín hiệu âm liên tục theo thời gian (1.2) Tín hiệu Microphone thứ m (1.3) Biểu diễn tín hiệu âm thu từ Microphone (1.4) Biểu diễn tín hiệu âm thu từ Microphone (1.5) PSD tín hiệu thu (1.6) PSD tín hiệu tiếng nói (1.7) Hàm loại bỏ âm nhiễu (1.8) Tín hiệu âm sau trừ phổ (1.9) Hệ số Cepstrum tín hiệu âm (1.10) Trung bình ‫ ݐݔ‬và ‫ݐݕ‬ (1.11) Vector chuẩn hóa xt yt (1.12) Vector đặc trưng tín hiệu âm (1.13) Tín hiệu âm sau xử lý (1.14) Tín hiệu âm xm (t) thu Microphone thứ m (1.15) Tín hiệu âm thu nguồn âm thứ n (1.16 )Trọng số lọc Wienner (1.17) Tín hiệu đầu lọc (1.18) Trọng số lọc Wienner (1.19) Tín hiệu đầu sau xử lý LCMV (1.20) Hệ phương trình giải tốn tối ưu NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT (1.21) Trọng số lọc wopt(ω ) (1.22) Độ trễ thời gian tín hiệu từ nguồn đến Microphone m (1.23) Khoảng lệch thời gian tới Microphone m n (1.24) Tín hiệu Microphone n (1.25) Sự tương quan chéo tín hiệu Microphone m,n (1.26) Hàm trọng số PHAT (1.27) Hàm GCC-PHAT (1.28) Hàm SRP-PHAT (1.29) Góc tới chùm âm (2.1) Biến đổi Fourier tín hiệu âm miền thời gian (2.2) Biến đổi Fourier tín hiệu âm miền thời gian (2.3) Nghịch đảo biến đổi Fourier (2.4) Đáp xung lọc phân tích (2.5) z biến đổi lọc phân tích (2.6) Bộ lọc phân tích dải tần (2.7) Tín hiệu dải tần sau qua lọc (2.8) Bộ lọc đa pha (2.9) Hàm làm tròn (2.10) Bộ lọc phân tích dải tần (2.11) Đáp xung lọc tổng hợp (2.12) Tổng đáp xung lọc tổng hợp (2.13) Bộ lọc tổng hợp m dải tần NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT (2.14) Tổng hợp tín hiệu đầu (2.15) Bộ lọc tổng hợp đa pha (2.16) Bộ lọc tổng hợp thành phần đa pha (2.17) Hàm làm tròn (2.18) Tín hiệu thu Microphone x1 (2.19) Tín hiệu thu Microphone x2 (2.20) Tín hiệu x1 theo miền tần số (2.21) Tín hiệu x2 theo miền tần số (2.22) Tín hiệu x2 theo miền tần số (2.23) Tín hiệu thu Microphone l kèm theo tín hiệu phản dội (2.24) Tín hiệu thu Microphone l kèm theo tín hiệu phản dội (3.1) Tín hiệu âm đến Microphone từ nguồn phát (3.2) Tín hiệu âm miền tần số đến Microphone từ nguồn phát (3.3) SRP-PHAT cải tiến (3.4) Góc tới chùm tia (3.5) Sự tương quan chéo cặp Microphone (3.6) PSD tín hiệu px(ω,q) (3.7) PSD tín hiệu px(ω,q) (3.8) Bộ PSD khối (3.9) SRP-PHAT nguồn (3.10) SRP-PHAT nguồn (3.11) Sự tương quan chéo cặp Microphone nguồn NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT (3.12) Sự tương quan chéo cặp Microphone nguồn (3.13) PSD nguồn âm (3.14) PSD nguồn âm (3.15) Sự tương quan chéo cặp Microphone (3.16) PSD tín hiệu px(ω,q) (3.17)SRP-PHAT cải tiến (3.18) SRP-PHAT cải tiến (3.19) SRP-PHAT cải tiến (3.20) Xác định mức vượt trội nguồn âm (3.21) SPR-PHAT cho đoạn tần [ω 1,ω2] (3.22) Ma trận tương quan nguồn (3.23) Ma trận tương quan nguồn (3.24) Hệ phương trình tối ưu nguồn (3.25) Hệ phương trình tối ưu nguồn (3.26) Trọng số tối ưu nguồn (3.27) Trọng số tối ưu nguồn (3.28) Tín hiệu đầu nguồn (3.29) Tín hiệu đầu nguồn NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT DANH MỤC CÁC HÌNH VẼ Hình 1.1 Hoạt động ghi âm Microphone Hình 1.2 Quá trình xử lý âm VOIP Hình 1.3 Hình ảnh trao đổi trực tuyến Hình 1.4 Hiện tượng tiếng vọng (Echo) người dùng trao đổi trực tuyến Hình 1.5 Vị trí nguồn âm Microphone khơng gian chiều Hình 1.6 Kỹ thuật lọc thích nghi Wiener Hình 1.7 Mơ tả đường từ nguồn đến dàn Microphone Hình 2.1 Các lọc phân tích tổng hợp theo dải tần đồng Hình 2.2 Tín hiệu âm Hình 2.3 Một dàn Microphone lắp đặt xe ô tô Hình 2.4 Một dàn Microphone lắp đặt phòng thu âm Hình 2.5 Hướng lan truyền sóng âm đến Microphone Hình 2.6 Mơ hình sóng âm với dàn tuyến tính Hình 2.7 Mơ hình sóng âm với dàn tuyến tính Hình 2.8 Mơ hình sóng âm, sóng phản dội Hình 3.1 Hình ảnh buổi Talkshow Hình 3.2 Hình giáo sư Chuck Hình 3.3 Mơ tả SRP-PHAT khoảng từ 800 – 900 Hz Hình 3.4 Kết xác định đoạn tần Hình 3.5 Kết xác định đoạn tần Hình 3.6 So sánh phương pháp nâng cao chất lượng tiếng nói NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT Hình 3.7 Tín hiệu âm thu dàn Microphone Hình 3.8 Tín hiệu âm từ nguồn sau tách Bảng So sánh kết thuật toán NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT DANH MỤC CÁC CHỮ VIẾT TẮT A/D: Tương tự/Số-Analog/Digital AR: Tự hồi quy-AutoRegressive BSS: Tách nguồn mù-Blind Source Separation CHN: Chuẩn hóa biểu đồ giả phổ-Cepstral Histogram Normalization CMN: Chuẩn hóa trung bình hệ số giả phổ-Cepstral Mean Normalization CVN: Chuẩn hóa phương sai hệ số giả phổ-Cepstral Variance Normalization DTFT: Biến đổi rời rạc Fourier-Discrete Time Fourier Transform GCC: Tương quan chéo-Generalized Cross Correction GMM: Mơ hình hỗn hợp Gaus-Gaus Mixture Models GSC: Tổng quát hoá việc giãm sóng phụ-Generalized Sidelobe Canceller HMM: Mơ hình Markov ẩn IDFT: Biến đổi ngược biến đổi DTFT-Inverse Discrete Fourier Transform IS:Độ triệt nhiễu-Interference Suppression LCMV: Tuyến tính hạn chế tối thiểu phương sai-Linearly Constrained Minimum Variance MLLR: Hồi quy tuyến tính ước lượng cực đại -Maximum Likelihood Linear Regression MSE: Sai số tồn phương trung bình-Mean Square Error MVDR: Đáp ứng biến đổi không méo nhỏ nhất-Minimum Variance Distortoinless Response PHAT: Chuyển pha-Phase Transform PMC: Mơ hình song cơng-Parrallel Model Combination PSD:Mật độ phổ công suất-Power Spectral Density SD: Độ biến dạng âm-Source Distortion SRP: Công suất hướng phản hồi-Steered Reponse Power STFT: Biến đổi Fourier ngắn-Short-Time Fourier Transform TDOA: Khoảng lệch thời gian-Time Difference Of Arrival UMAF: Bộ lọc phân tích đồng nhất- Uniformly Modulated Analysis Filterbank UMF: Bộ lọc đồng nhất-Uniformly Modulated Filterbank UMSF: Bộ lọc tổng hợp đồng nhất- Uniformly Modulated Synthesis Filterbank 10 NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT ଵ ௤ே ps1(ω,q)= ∑௞ୀሺ௤ିଵሻேାଵ ‫ݏ‬ଵ ሺω, ݇, ݈ ሻ‫ݏ‬ଵ ሺω, ݇, ݈ሻ* ே (3.13) Và ଵ ௤ே ps2(ω,q)= ∑௞ୀሺ௤ିଵሻேାଵ ‫ݏ‬ଶ ሺω, ݇, ݈ ሻ‫ݏ‬ଶ ሺω, ݇, ݈ሻ* (3.14) ே Do thực tế nguồn tín hiệu s1(n) s2(n) thống kê độc lập nên tương quan chéo chúng =0 tất đoạn tần số Vì Rx(,q,n,m) px(,q) biểu diễn sau: Rx(ω ,q,n,m)=Rs1(ω,q,n,m) + Rs2(ω,q,n,m) (3.15) Và px(ω ,q)=ps1(ω,q)+ps2(ω,q) (3.16) Ta có được: Ψ௫ ሺω, ‫ݍ‬ሻ ൌ ௣ೞభ ሺω,௤ሻΨೞభ ሺω,௤ሻା௣ೞమ Ψೞమ ሺω,௤ሻ ௣ೞభ ሺω,௤ሻା௣ೞమ ሺω,௤ሻ (3.17) Trong trường hợp nghiên cứu giả định nguồn âm khơng di chuyển, dùng SRP-PHAT để xác định vị trí nguồn âm phòng Như SRP-PHAT nguồn âm giả định không đổi cho tồn khối q∈S Ta có Ψs1(ω ,q) = Ψs1(ω ) Ψs2(ω,q) = Ψs2(ω ) cho toàn khối q∈S Ta có: Ψ௫ ሺω, ‫ݍ‬ሻ ൌ ௣ ௣ೞభ ሺω,௤ሻ ೞభ ሺω,௤ሻା௣ೞమ Với γs1(ω,q) = Ψ ሺωሻ+௣ ሺω,௤ሻ ௦ଵ ௣ೞమ ሺω,௤ሻ ೞభ ሺω,௤ሻା௣ೞమ ሺω,௤ሻ Ψ௦ଶ ሺωሻ (3.18) ௣ೞభ ሺω,௤ሻ ௣ೞభ ሺω,௤ሻା௣ೞమ ሺω,௤ሻ Khi ta có: Ψ௫ ሺω, ‫ݍ‬ሻ ൌ γs1ሺω, qሻΨ௦ଵ ሺωሻ+(1-γs1(ω,q)) Ψ௦ଶ ሺωሻ 56 (3.19) NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT Rõ ràng phương trình (3.19) mơ tả phân phối cân nguồn âm khối q Vì γs1(ω,q) phân phối nguồn γs2(ω,q) nguồn Vì trình thu âm phân phối nguồn âm thay đổi từ khối đến khối Trong khối phân phối nguồn âm cao nguồn âm lại sử dụng để xác định hoạt động nguồn âm Trong mặt phẳng phức, dựa vào (3.19), điểm Ψ௫ ሺω , ‫ ݍ‬ሻ thì nằm đường nối điểm Ψ௦ଵ ሺω, ‫ ݍ‬ሻ Ψ௦ଶ ሺω , ‫ ݍ‬ሻ Vì thế, điểm gần với đỉnh khối đại diện cho vượt trội nguồn âm Do đó, vượt trội khối nguồn âm 1có thể nhận dạng khối q1, khối nguồn âm khối q2, tính sau: ௠௔௫ q1,q2 =ୟ୰୥ |Ψ௫ ሺ߱, ‫ݍ‬ଵ ሻ െ Ψ௫ ሺ߱, ‫ݍ‬ଶ ሻ| ௤ ,௤ ௘ௌ భ మ (3.20) Với |•| hàm lấy giá trị tuyệt đối Để giảm bớt tần số lỗi, dùng SRP-PHAT cho đoạn tần số[ω1,ω2], tính sau: Ψ௫ ሺሾωଵ ωଶ ሿ, ‫ݍ‬ሻ ൌ ∑ωమୀωభ Ψ௫ ሺω, ‫ݍ‬ሻ ω (3.21) Các khối tín hiệu mà chứa phân phối nguồn âm dùng để so với phân phối nguồn âm khác xem khối I có SRP-PHAT gần với SRP-PHAT khối q1th hay q2th Khi đó, Π1 Π2 xem tập tín hiệu thu x(n) khối I có SRP-PHAT gần với SRP-PHAT khối q1th q2th tương ứng Trong thực tế giá trị I chọn nhỏ 5% số thành phần S 3.3 Tối ưu chùm tia sử dụng thông tin nguồn hoạt động Để tách tín hiệu nguồn từ tín hiệu thu sử dụng kỹ thuật tối ưu chùm tia thông tin nguồn hoạt động có từ VAD để tăng cường tín hiệu từ nguồn mong muốn giãm tín hiệu khơng mong muốn Trong đoạn tần số ω, ma trận tương quan R1(ω ) cho nguồn thứ cho sau: ଵ R1(ω )= ∑௞∈Πభ ܺሺ, ω݇ሻܺ ு ሺω, ݇ሻ ூொ 57 (3.22) NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT Do giá trị I nhỏ nên phân phối nguồn âm thứ ma trận tương quan R1(ω ) phải nhỏ so với nguồn Khi ma trận tương quan R2(ω ) cho nguồn thứ tính sau: ଵ R1(ω )= ∑௞∈Πమ ܺሺ, ω݇ሻܺ ு ሺω, ݇ሻ ூொ (3.23) Những ma trận sử dụng để tối ưu chùm tia mong muốn đoạn tần số Dựa vào việc xác định tương quan ma trận nguồn phát R1(ω ) R2(ω ) đoạn dải tần số ω tối ưu chùm tia mong muốn đoạn dải tần số ω Với w1(ω) trọng số chùm tia nguồn thứ Vector trọng số có tính cách giải vấn đề tối ưu ݉݅݊ ‫ݓ‬ଵு ሺωሻܴଶ ‫ݓ‬ଵ ሺω ሻ ൜ ‫ݓ ݋ݐ ݐ݆ܾܿ݁ݑݏ‬ଵு ݀ଵ ሺωሻ ൌ (3.24) Trong d1(ω ) Vector tương quan chéo nguồn thứ Microphone lth Vector d1(ω ) cột lth ma trận R1(ω ) Tương tự trọng số w2(ω ) cho nguồn thứ tính tương tự sau: ݉݅݊ ‫ݓ‬ଶு ሺωሻܴଵ ‫ݓ‬ଶ ሺωሻ ൜ ‫ݓ ݋ݐ ݐ݆ܾܿ݁ݑݏ‬ଶு ݀ଶ ሺωሻ ൌ (3.25) Trong d1(ω ) cột ma trận R1(ω ) Khi giải pháp cho vấn đề tối ưu mô tả sau: ‫ݓ‬ଵ ሺω ሻ ൌ ሺோమ ሺωሻሿషభ ௗభ ሺωሻ ಹ ௗభ ሾோమ ሺωሻሿషభ ௗభ ሺωሻ ‫ݓ‬ଶ ሺωሻ ൌ ሺோభ ሺωሻሿషభ ௗమ ሺωሻ (3.26) Và ௗమಹ ሾோభ ሺωሻሿషభ ௗమ ሺωሻ (3.27) Tín hiệu đầu trình xử lý tối ưu chùm tia cho nguồn phát tính sau: 58 NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT ‫ݕ‬ଵ ሺω, ݇ሻ ൌ ‫ݓ‬ଵு ܺሺω, ݇ሻ (3.28) ‫ݕ‬ଶ ሺω, ݇ሻ ൌ ‫ݓ‬ଶு ܺሺω , ݇ሻ (3.29) Và Sau dùng tổng hợp để tái cấu trúc tín hiệu đầu để chuyển tín hiệu y1(n,k) y2(n,k) từ miền tần số thành tín hiệu y1(n) y2(n) thuộc miền thời gian 3.4 Các kỹ thuật xác định nguồn âm Khi tiến hành thực nghiệm chương trình với số liệu thật thu từ dàn Microphone tuyến tính với tần số lấy mẫu 12000Kz mơi trường phòng thu âm chuyên dụng Trong khoá luận với liệu âm thanhthu từ dàn Microphone đưa qua phép biến đổi phép biến đổi STFT phép biến đổi theo dải tần (Subband transform) để có giá trị tín hiệu thu miền tần số tiến hành phân tích, xử lý nâng cao chất lượng tiếng nói Trong trường hợp vị trí hai người nói chưa biết trước nên ta sử dụng dò hoạt động tiếng nói sử dụng kỹ thuật SRP-PHAT để xác định thơng tin hai người nói dựa theo đặc tín tín hiệu tiếng nói thu dàn Microphone sau chuyển qua lọc phân tích theo dải tần để đưa miền tần số Chúng tơi chia tín hiệu sau chuyển qua lọc phân tích thành 240 đoạn nhỏ với đoạn có khoảng giây âm thanh, khoảng thời gian đủ để phân tích nhận dạng giọng nói Vì khóa luận hai người nói hồn tồn khơng di chuyển thay đổi vị trí nên ta hồn tồn định vị vị trí người nói phương pháp SRP-PHAT Giá trị SRP-PHAT tính với hướng diện dàn Microphone, trường hợp này, τ=0 Áp dụng cơng thức SRP-PHAT cải tiến để tính SRP-PHAT cho đoạn nhỏ dải tần số Sau chúng tơi sử dụng giá trị SRP-PHAT để đánh giá khác biệt pha tín hiệu âm thu đoạn thời gian 59 NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT thảo luận nhằm tìm đoạn thời gian mà tiếng nói người nói chiếm ưu Trong khóa luận chúng tơi có hai trọng số hai người nói nên chúng tơi có giá trị SRP-PHAT Ψs,1(ω) Ψs,2(ω) đỉnh đường thẳng mặt phẳng phức với giá trị Ψx(ω,q) điểm nằm đoạn thẳng việc tìm đỉnh đường thẳng mặt phẳng phức cho phép chúng tơi tìm đoạn thời gian mà có tiếng nói chiếm ưu Trong tốn thực tế chúng tơi thử nghiệm giá trị Ψx(ω,q) tìm nằm xấp xỉ đường thằng mặt phẳng phức (Hình3.1) Sở dĩ có việc xấp xỉ đường thẳng chúng tơi sử dụng đánh giá thống kê mẫu liệu hữu hạn so tồn sai số định Hình 3.1 mơ tả SRP-PHAT đoạn dải tần số tín hiệu âm khoảng từ 800 đến 900 Hz Hình 3.3 Các giá trị nằm xấp xỉ đường thẳng mặt phẳng phức Để đánh giá đỉnh đoạn thẳng mà giá trị Ψx(ω,q) nằm chúng tơi đề xuất thuật tốn tìm hai đoạn có số q1 q2 thỏa mãn toán tối ưu (3.24) Hai đoạn có số q1 q2 đánh giá đoạn thời gian mà 60 NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT tiếng nói tiếng nói chiếm ưu thế, nhiên để giảm sai số bổ sung nhóm có ∏-1 đoạn có giá trị SRP-PHAT nằm lân cận giá trị SRP-PHAT đoạn tính thời gian nhóm đoạn thời gian mà tiếng nói chiếm ưu Chúng tơi có nhóm đoạn ∏1 ∏2 nhóm đoạn mà tiếng nói chiếm ưu nhóm có I đoạn Nói cách khác để xác định vị trí hai người nói cần xác định điểm xa điểm (Hình 3.1) 3.4.1 Xác định vị trí người nói cách tính trung bình Với phương pháp lấy giá trị SRP-PHAT dãy tần thứ 18 (tương đương từ 800 Hz đến 900 Hz) để tìm Chúng tơi tìm độ lớn SRP-PHAT đoạn dãy tần thứ 18 so với SRP-PHAT dãy tần 18 Sau xắp xếp độ lớn đoạn xác định vị trí đoạn tần có phân phối thuộc người nói thứ Chúng tơi lặp lại q trình tìm độ lớn SRP-PHAT đoạn tần thuộc nguồn thứ cho ta vị trí đoạn tần có phân phối thuộc người nói thứ Kết tìm đoạn tần thuộc người nói Hình 3.4 Kết xác định đoạn tần 3.4.2 Xác định vị trí người nói cách tính vét cạn Từ tập hợp điểm SRP-PHAT dãy tần thứ 18 chúng tơi tính khoản cách tất điểm Sau trình kết thúc chúng tơi tìm 61 NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT điểm xa Chúng tơi tiếp tục tìm điểm lân cận điểm tìm điểm SRP-PHAT thuộc hai người nói Hình 3.5 Kết xác định đoạn tần So sánh kết sau tiến hành phương pháp xác định đoạn tần thuộc người nói chúng tơi có: 62 NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT Hình 3.6 So sánh phương pháp nâng cao chất lượng tiếng nói So sánh kết thu chúng tơi có biểu đồ theo miền thời gian tín hiệu âm dàn Microphone hình 3.5 Hình 3.7 Tín hiệu âm thu dàn Microphone 3.4.3 So sánh kết thực nghiệm Sau tách nguồn hai người nói phương pháp sử dụng giá trị SRP-PHAT chúng tơi thu tín hiệu âm nguồn âm sau: 63 NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT Hình 3.8 Tín hiệu âm từ người nói sau tách Sau thu kết quả, tiến hành so sánh phương pháp với phương pháp tách nguồn mù thứ hai [17] để đánh giá so sánh Dưới mô tả mức độ triệt nhiễu (IS )và mức độ biến dạng âm (SD) sử dụng kỹ thuật đề xuất khóa luận so với kỹ thuật tách nguồn mù thứ hai 64 NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT Bảng So sánh kết thuật tốn đề xuất BSS Tín hiệu đầu người Tín hiệu đầu người IS (dB) IS (dB) KỸ THUẬT BSS kết hợp SRP-PHAT BSS khác SD (dB) SD (dB) 6.9 -21.2 7.6 -23.4 2.1 -20.5 1.9 -22.3 Bảng cho thấy cải tiến IS SD dùng kỹ thuật đề xuất so với kỹ thuật tách nguồn mù khác mức IS khoảng 7dB mức SD khoảng -21dB ~ -24dB 65 NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT Chương VI KẾT LUẬN VÀ KHUYẾN NGHỊ Trong khóa luận tơi nghiên cứu xây dựng ứng dụng tách tiếng nói mơi trường có nguồn phát hai người nói đồng thời Vì vị trí nguồn phát chưa xác định nên cần phải dùng dò hoạt động giọng nói sử dụng phương pháp SRP-PHAT để xác định vị trí hai người nói thông tin nhận dạng nguồn phát từ tín hiệu âm thu từ dàn Microphone tuyến tính Mặc dù tín hiệu âm xử lý miền thời gian miền tần số yêu cầu cho việc xử lý tín hiệu âm miền thời gian phức tạp nhiều so với miền tần số nên chúng tơi chọn giải pháp chuyển tín hiệu âm thu từ dàn Microphone từ miền thời gian sang miền tần số phương pháp băng tần Dựa vào thông tin người nói chiếm ưu có sau áp phương pháp SRP-PHAT tiến hành xây dựng thuật tốn xử lý chùm tia tín hiệu âm thu để tách hai nguồn nói khỏi miền tần số Các thuật tốn khóa luận tiến hành thực nghiệm liệu âm thực tế thu từ dàn Microphone phòng kín với hai người nói phát đồng thời Kết thu từ thuật toán khóa luận so sánh với kết sử dụng thuật tốn tách nguồn mù khác cho kết tốt với mức độ giãm âm nhiễu khoảng ~7dB điều kiện thực tế có hai người nói đồng thời điều kiện mơi trường nhiễu Mặc dù khóa luận cho kết tốt khóa luận nhiều thiếu sót Một số thuật tốn mà khóa luận xây dựng áp dụng cho mơi trường thực tế với hai người nói q trình dàn Microphone thu nhận tín hiệu âm để xử lý hai người nói phải hạn chế khơng thay đổi vị trí hay di chuyển để đảm bảo tín xác thuật tốn Vì vậy, hướng phát triển khóa luận tăng số lượng nguồn người nói lên nhiều người xây dựng thêm thuật tốn để xác định vị trí 66 NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT người nói di chuyển thay đổi vị trí q trình dàn Microphone ghi nhận tín hiệu [14] 67 NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT TÀI LIỆU THAM KHẢO Tiếng Việt [1] GS.TS Phạm Thị Ngọc Yến, “Nghiên cứu thiết kế chế tạo thiết bị hệ thống tự động hóa thơng minh sử dụng tương tác người máy tiếng nói điều khiển”, Mã số: KC.03.15/06-10, Trường Đại học Bách Khoa Hà Nội, Tiếng Anh [2] Dr Hai Quang Hong Dam, M.Sc Hai Ho and Minh Hoang Le Ngo (2016), “Blind Speech Separation using SRP-PHAT Localization and Optimal Beamformer in Two-Speaker Environments”, University of Information Technology, Ho Chi Minh City, Vietnam [3] K Nakadai, K Nakamura, and G Ince, “Real-time super-resolution sound source localization for robots,” IEEE/RSJ International Conference on Intelligent Robots and Systems, pp 694–699, Oct 2012 [4] M Brandstein and D Ward, Eds., Microphone Arrays: Signal Processing Techniques and Applications, Springer- Verlag, 2001 [5] M Fallon and S Godsill, “Acoustic source localization and tracking of a timevarying number of speakers,” IEEE Transactions on Audio, Speech, and Language Processing, vol 20, no 4, pp 1409–1415, May 2012 [6] H Q Dam, S Nordholm, H H Dam, and S Y Low, “Postfiltering using multichannel spectral estimation in multi-speaker environments,” EURASIP Journal on Advances in Signal Processing, pp 1–10, Jan 2008, ID 860360 [7] N Grbic´, X J Tao, S Nordholm, and I Claesson, “Blind signal separation using overcomplete subband representation,” IEEE Transactions on Speech and Audio Processing, vol 9, no 5, pp 524–533, July 2001 [8] H Sawada, S Araki, and S Makino, “Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment,” 68 NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT IEEE Transactions on Audio, Speech, and Language Processing, vol 19, no 3, pp 516–527, March 2011 [9] J Benesty, S Makino, and J Chen, Eds., Speech Enhancement, SpringerVerlag, 2005 [10] P Krishnamoorthy and S R Mahadeva Prasanna, “Two speaker speech separation by lp residual weighting and harmonics enhancement,” International Journal of Speech Technology, vol 13, no 3, pp 117–139, Sep 2010 [11] H Q Dam, “Blind multi-channel speech separation using spatial estimation in two-speaker environments,” Journal of Science and Technology, Special Issue on Theories and Application of Computer Science, vol 48, no 4, pp 109–119, Dec 2010 [12] H Q Dam and S Nordholm, “Sound source localization for subband-based two speech separation in room environment,” International Conference on Control, Automation and Information Sciences (ICCAIS), pp 223– 227, Dec 2013 [13] S Araki, R Mukai, S Makino, T Nishikawa, and H Saruwatari, “The fundamental limitation of frequency domain blind source separation for convolutive mixtures of speech,” IEEE Trans on Speech and Audio Processing, vol 11, no 2, pp 109–116, Mar 2003 [14] Shahab Faiz Minhas and Patrick Gaydecki, “A hybrid algorithm for blind source separation of a convolutive mixture of three speech sources,” EURASIP Journal on Advances in Signal Processing, vol 1, no 92, pp 1–15, Jan 2014 [15] M Cobos, A Marti, and J J Lopez, “A modified SRP-PHAT functional for robust real-time sound source localization with scalable spatial sampling,” IEEE Signal Processing Letters, vol 18, no 1, pp 71–74, Nov 2010 [16] L Saul, D Lee, C Isbell, Y LeCun, “Real time voice processing with audiovisual feedback : toward autonomous agents with perfect pitch”, Advances in Neural Information Processing Systems 15 (NIPS 2002), pp 1205-1212, 2002 69 NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT [17] A Belouchrani, K Abed-Meraim, J-F Cardoso, E Moulines, “A Blind Source Separation Technique Using Second-Order Statistics”, IEEE Transactions on Signal Processing, vol 45, no 2, pp 434-444, Feb 1997 [18] H Q Dam, S Nordholm, H H Dam, and S Y Low, “Adaptive beamformer for hands-free communication system in noisy environments,” IEEE Int Symposium on Circuits and Systems, vol 2, pp 856–859, May 2005 [19] Damodar Reddy Naturi, “Intelligent camera tracking using srp-phat based sound source localization in frequency domain”, Department of Signal Processing, School of Engineering (ING), Blekinge Institute of Technology [20] Hoang Do, harvey F.Silverman, “SRP-PHAT Methods of locating simultaneous multiple talkers using a frame of Microphone array data”, LEMS, Division of Engineering, Box D, Brown University, Providence, RI 02912 [21] Longji Sun (2010), “Blind source separation and localization using Microphone arrays”, Bachelor of Engineering in Communication Engineering, University of Shanghai for Science and Technology, Shanghai, China 70 ... NGUỒN PHÁT Hình 3.7 Tín hiệu âm thu dàn Microphone Hình 3.8 Tín hiệu âm từ nguồn sau tách Bảng So sánh kết thu t toán NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT DANH MỤC CÁC CHỮ VIẾT... 10 NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT VAD: Bộ dò hoạt động giọng nói-Voice Activity Detector VTS: Chuỗi Vector Taylor-Vector Taylor Series 11 NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH. .. tuyến 20 NGHIÊN CỨU XỬ LÝ TÁCH ÂM THANH ĐƯỢC THU TỪ HAI NGUỒN PHÁT Trong hệ thống đào tạo trực tuyến, việc xử lý âm thu từ Microphone nhằm nâng cao chất lượng tiếng nói có ích loại bỏ âm nhiễu

Ngày đăng: 23/12/2018, 06:14

Tài liệu cùng người dùng

Tài liệu liên quan