Tách nguồn âm thanh sử dụng mô hình phổ nguồn tổng quát trên cơ sở thừa số hóa ma trận không âm (tt)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	28
Dung lượng	1,61 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI DƯƠNG THỊ HIỀN THANH TÁCH NGUỒN ÂM THANH SỬ DỤNG MƠ HÌNH PHỔ NGUỒN TỔNG QT TRÊN CƠ SỞ THỪA SỐ HĨA MA TRẬN KHƠNG ÂM Ngành: Khoa học máy tính Mã số: 9480101 TĨM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội - 2019 Cơng trình hồn thành tại: Trường Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: PGS TS Nguyễn Quốc Cường TS Nguyễn Công Phương Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Trường họp Trường đại học Bách khoa Hà Nội Vào hồi , ngày tháng .năm Có thể tìm hiểu luận án thư viện: Thư viện Tạ Quang Bửu - Trường Đại học Bách khoa Hà Nội Thư viện Quốc gia Việt Nam MỞ ĐẦU Đặt vấn đề Trong thực tế sống có nhiều tình thu âm mà âm mong muốn bị trộn lẫn với nhiều âm khác, tiếng ồn từ môi trường xung quanh tiếng vọng tượng phản xạ âm mang lại Con người với khả thính giác bình thường qua hai tai dễ dàng định vị phân tách âm mong muốn để nghe, hiểu Tuy nhiên học máy việc lại trở nên vơ khó khăn Vì lý đó, nhiều ứng dụng thực tế (như hệ thống nhận dạng tiếng nói tự động, robotics, hội nghị truyền thanh/truyền hình, hệ thống hỗ trợ người khiếm thính, xử lý âm hậu kỳ sản xuất phim ảnh, ) sử dụng kỹ thuật tách nguồn âm [5] để phân tách, nâng cao chất lượng âm mong muốn bước tiền xử lý quan trọng Những công bố gần tách nguồn âm cho thấy điều kiện tỷ lệ nhiễu thấp khơng có tượng phản xạ âm thanh, số thuật toán tách nguồn âm cho kết tương đối tốt Nhưng với mơi trường thu âm thực có mức nhiễu tiếng vọng cao kết tách âm thấp Các cơng bố cho thấy thuật tốn tách nguồn mù đạt kết phân tách chưa đủ tốt để đưa vào ứng dụng thực tế Một số nghiên cứu sử dụng liệu huấn luyện, thông tin phụ trợ tương đối cụ thể (như tách âm nhạc biết trước nhạc, tách tiếng nói biết transcript, ) để hướng dẫn trình phân tách đạt kết tốt [4, 7, 8] Tuy nhiên, liệu huấn luyện thông tin hướng dẫn cụ thể thường không dễ dàng có nhiều tình ứng dụng Từ phân tích đó, chúng tơi tập trung phát triển thuật tốn tách nguồn âm trường hợp nhiều khó khăn thách thức: tín hiệu thu âm mơi trường có phản xạ, chứa nhiễu mức cao, số lượng nguồn âm lớn số microphone (determined/ underdetermined) khơng có liệu huấn luyện cho âm cần phân tách Tiếp cận theo hướng weakly-informed, sử dụng thông tin phụ trợ chung chung để hướng dẫn q trình phân tách, cần biết âm có hỗn hợp loại (ví dụ tiếng nói, âm môi trường hay âm nhạc, ) Mục tiêu phạm vi nghiên cứu luận án • Mục tiêu nghiên cứu Mục tiêu luận án nghiên cứu phát triển thuật tốn tách nguồn âm thực phân tách nguồn hiệu điều kiện thu âm mơi trường thực có phản xạ âm (high reverberation) số nguồn âm nhiều số microphone (determined/ underdetermined) Chúng tơi tìm hiểu kỹ thuật phân tách âm khác nhau, từ lựa chọn kỹ thuật phù hợp với mục tiêu đặt để nghiên cứu phát triển Chúng đề xuất thuật toán cho hai trường hợp tách nguồn đơn kênh đa kênh Dựa vào thông tin loại âm xuất tín hiệu trộn, chúng tơi tìm kiếm số mẫu huấn luyện cho thuật tốn đề xuất Ví dụ, với tình nâng cao chất lượng tiếng nói mơi trường thực, xác định âm cần tách tiếng nói, thành phần lại âm mơi trường Từ tìm kiếm vài tệp ngắn (khoảng giây), chứa âm môi trường (cafeteria, subway, square, ) tiếng nói làm liệu huấn luyện Thuật tốn đánh giá thí nghiệm với hai trường hợp: phân tách tiếng nói nhiễu mơi trường, phân tách giọng hát âm nhạc từ hát Để dễ dàng so sánh với nghiên cứu khác giới, liệu tự xây dựng, sử dụng liệu chuẩn công bố SiSEC (Signal Separation Evaluation Campaign ) • Phạm vi nghiên cứu Mục tiêu nghiên cứu khơi phục tín hiệu gốc nguồn thành phần (original sources) trường hợp tách nguồn đơn kênh, khơi phục tín hiệu thu microphone (spatial images) nguồn thành phần trường hợp đa kênh Hơn nữa, nghiên cứu dựa giả định biết trước số nguồn thành phần biết nguồn thuộc loại âm Những đóng góp luận án Chúng tơi đề xuất thuật toán tách nguồn âm cho hai trường hợp đơn kênh đa kênh Kết nghiên cứu công bố báo Kết thuật toán đề xuất gửi tới chiến dịch đánh giá tách nguồn âm quốc tế SiSEC 20162 đạt kết tốt với tiêu chí đánh giá dựa lượng Những đóng góp cụ thể luận án sau: • Đề xuất thuật toán tách nguồn âm đơn kênh sử dụng tập mẫu huấn luyện vài file âm ngắn (khoảng giây) loại với nguồn cần tách Trong thuật tốn đề xuất, mơ hình phổ tổng qt GSSM âm xây dựng cách học đặc trưng phổ từ tập mẫu huấn luyện, sau sử dụng để hướng dẫn bước phân tách dùng mơ hình thừa số hóa ma trận khơng âm (Nonnegative Matrix Factorization - NMF) Chúng đề xuất công thức ràng buộc thưa cho hàm giá trình ước lượng nguồn thành phần bước phân http://sisec.inria.fr/ http://sisec.inria.fr/sisec-2016/ tách Thuật toán xác thực hiệu phân tách, khả hội tụ tính ổn định thay đổi tham số thơng qua thí nghiệm liệu với thiết lập unsupervised semi-supervised • Đề xuất thuật toán tách nguồn đa kênh kết hợp NMF mơ hình Gaussian cục (Local Gaussian Model - LGM) Chúng tơi đề xuất hai tiêu chí tối ưu cho bước ước lượng thông tin phổ nguồn thành phần: (1) ước lượng đặc trưng phổ nguồn riêng biệt (2) ước lượng đồng thời tất nguồn Từ đó, chúng tơi tính tốn cơng thức cập nhật tham số tương ứng với tiêu chí ước lượng xây dựng thuật toán Hiệu phân tách khả hội tụ tính ổn định thuật tốn xác thực thí nghiệm liệu SiSEC (Signal Separation Evaluation Campaign), liệu dùng phổ biến cộng đồng tách nguồn âm giới • Ngồi hai đóng góp nêu trên, q trình nghiên cứu ứng dụng mơ hình NMF xử lý âm thanh, đề xuất ba phương pháp tự động trích xuất đoạn âm bất thường từ tín hiệu thu âm ngồi trời kích thước lớn Thí nghiệm chứng minh khả mơ hình hóa tốt đặc trưng phổ âm NMF Thuật toán đề xuất chuyển giao cho công ty RION (tại Tokyo-Nhật Bản) để phát triển sử dụng hỗ trợ việc phát hiện, gán nhãn kiện âm Cấu trúc luận án • Chương 1: Giới thiệu tổng quan kỹ thuật tách nguồn âm kết nghiên cứu liên quan cơng bố, đồng thời mơ hình hóa tốn tách nguồn âm mà luận án nghiên cứu giải • Chương 2: Chương giới thiệu mơ hình NMF, sử dụng rộng rãi xử lý âm Chúng tơi trình bầy thuật toán tách nguồn âm dựa NMF, thuật tốn sở cho đề xuất chúng tơi Bên cạnh đó, chúng tơi đề xuất phương pháp trích xuất đoạn âm bất thường xuất file ghi âm dài Đề xuất cho thấy hướng ứng dụng khác NMF, đồng thời xác thực khả mã hóa đặc trưng phổ âm mơ hình NMF • Chương 3: Chúng tơi đề xuất thuật tốn tách nguồn đơn kênh Trong đó, mơ hình phổ tổng quát GSSM huấn luyện từ vài ví dụ mẫu loại với âm cần phân tách mơ hình NMF Chúng tơi đề xuất hàm ràng buộc thưa thớt (sparsity-inducing penalty function) cho bước ước lượng tham số Đồng thời tính tốn công thức cập nhật tham số theo hàm ràng buộc thưa đề xuất xây dựng thuật toán Hiệu thuật toán đề xuất xác thực thí nghiệm ba liệu với cài đặt khác • Chương 4: Chương mơ tả thuật toán tách nguồn đa kênh mới, kết hợp mơ hình phổ tổng qt GSSM với mơ hình hiệp phương sai không gian nguồn âm khuôn khổ mơ hình LGM Để hướng dẫn ước lượng phương sai nguồn trung gian vòng lặp EM, chúng tơi đề xuất hai tiêu chí tối ưu hóa: (1) ước lượng phương sai nguồn riêng biệt mơ hình NMF kết hợp với ràng buộc thưa đề xuất, (2) ước lượng phương sai tất nguồn đồng thời Cuối thí nghiệm nhằm đánh giá hiệu suất phân tách thuật toán đề xuất khả hội tụ tính ổn định thuật tốn Phần cuối luận án, chúng tơi nêu đánh giá, kết luận kết nghiên cứu đạt đề xuất định hướng nghiên cứu tương lai CHƯƠNG 1: TỔNG QUAN VỀ TÁCH NGUỒN ÂM THANH VÀ NHỮNG NGHIÊN CỨU LIÊN QUAN 1.1 1.1.1 Tổng quan tách nguồn âm Mô hình chung hệ thống tách nguồn âm Tách nguồn âm kỹ thuật khôi phục âm thành phần (gọi nguồn âm) từ tín hiệu chứa âm bị trộn lẫn (gọi tín hiệu trộn (mixture)) đơn kênh đa kênh Các hệ thống tách nguồn âm thường ước lượng nguồn thành phần miền thời gian - tần số (T-F), dùng hai hai mơ hình sau: (1) mơ hình phổ spectral model mã hóa khai thác thông tin đặc trưng phổ âm thanh, (2) mơ hình khơng gian spatial model mã hóa khai thác thông tin không gian Sau trình ước lượng, âm thành phần biến đổi miền thời gian qua phép biến đổi Fourier ngược (ISTFT) 1.1.2 Xây dựng tốn Giả sử tín hiệu trộn từ J nguồn âm thu âm I microphone, với j ∈ {1, 2, , J} số nguồn âm i ∈ {1, 2, , I} số microphone Tín hiệu trộn x(t) = [x1 (t), , xI (t)]T ∈ RI×1 biểu diễn theo công thức sau [5]: J x(t) = cj (t), (1.1) j=1 với cj (t) = [c1j (t), , xIj (t)]T ∈ RI×1 tín hiệu thu microphone nguồn thứ j, gọi spatial image nguồn j, T phép toán chuyển vị véc tơ ma trận, t ∈ {0, 1, , T − 1} số khung thời gian T độ dài thời gian tín hiệu Cơng thức (1.1) miền thời gian - tần số (sau phép biến đổi Fourier STFT) viết sau: J x(n, f ) = cj (n, f ) (1.3) j=1 với cj (n, f ) ∈ CI×1 x(n, f ) ∈ CI×1 biểu diễn miền T-F tương ứng cj (t) x(t) n = 1, 2, , N số khung thời gian f = 1, 2, , F biểu diễn số bin tần số Mục tiêu hệ thống tách nguồn âm khôi phục J tín hiệu nguồn thành phần sj (t) (original source),hoặc khơi phục tín hiệu nguồn khơng gian (spatial images) cj (t) từ tín hiêu trộn I kênh x(t) 1.2 Những nghiên cứu liên quan • Các mơ hình phổ: Phần giới thiệu ba mơ hình phổ biến, dùng để mã hóa khai thác thơng tin phổ âm Đó mơ hình Gaussian (Spectral GMM), mơ hình thừa số hóa ma trận khơng âm (NMF), deep neural network (DNN) • Các mơ hình khơng gian: Trong phần này, giới thiệu ba kỹ thuật mơ hình hóa khai thác đặc tính khơng gian mơi trường truyền âm Đó interchannel intensity/time difference (IID/ITD), rank-1 mixing vector, mơ hình mơ hình hiệp phương sai khơng gian full-rank (full-rank spatial covariance model) 1.3 Các tiêu chí đánh giá nguồn tách • Energy-based criteria: Nhóm tiêu chí dựa lượng gồm có độ đo, đo đơn vị dB với giá trị cao tốt Bốn độ đo Signal to Distortion Ratio (SDR), Signal to Artifacts Ratio (SAR), Signal to Interference Ratio (SIR), source Image to Spatial distortion Ratio (ISR) • Perceptually-based criteria: Nhóm tiêu chí đánh giá dựa cảm thụ tai người gồm độ đo: Overall Perceptual Score (OPS), Artifacts-related Perceptual Score (APS), Interference-related Perceptual Score (IPS), Target-related Perceptual Score (TPS) Các độ đo có giá trị từ đến 100, giá trị cao biểu diễn hiệu phân tách tốt Tổng kết Trong chương này, giới thiệu tổng quan kỹ thuật tách nguồn âm kiến thức liên quan, đồng thời xây dựng toán tập trung nghiên cứu luận án CHƯƠNG 2: PHƯƠNG PHÁP THỪA SỐ HÓA MA TRẬN KHÔNG ÂM 2.1 2.1.1 Tổng quan thừa số hóa ma trận khơng âm (Nonnegative Matrix Factorization - NMF) NMF gì? Thừa số hóa ma trận khơng âm (NMF) kỹ thuật giảm số chiều ma trận sử dụng phổ biến phân tích liệu khơng âm ×N Cho ma trận khơng âm V ∈ RF kích thước F × N , NMF thực phân tách + ×K V thành hai ma trận khơng âm W ∈ RF H ∈ RK×N cho V ≈ WH NMF + + dùng phổ biến xử lý tín hiệu, có lĩnh vực xử lý âm [1] 2.1.2 Hàm giá Việc phân tách ma trận V thành hai ma trận W H thực q trình tối ưu hóa hàm mục tiêu [1]: H≥0,W≥0 D(V WH), (2.2) N x x với D(V WH) = F f =1 n=1 dIS (Vf m [WH]f m ), dIS (x y) = y − log( y ) − Itakura Saito divergence sử dụng phổ biến với tín hiệu âm 2.1.3 Quy tắc cập nhật tham số MU rules Để tối ưu hóa hàm mục tiêu (2.2), Lee Seung đề xuất quy tắc cập nhật cho thành phần NMF, gọi multiplicative update (MU) rules [2] viết sau: WT (WH).(β−2) H←H WT (WH) (WH).(β−2) W←W 2.2 V (β−1) , (2.13) , (2.14) V HT (WH).(β−1) HT Áp dụng NMF toán tách nguồn âm Mơ hình chung thuật tốn tách nguồn âm dựa NMF mô tả hình 2.3 gồm hai trình: (1) học đặc tính phổ nguồn từ liệu huấn luyện mơ hình NMF, (2) ước lượng tín hiệu nguồn thành phần từ tín hiệu trộn dựa ma trận đặc trưng phổ học trước Hình 2.3: Sơ đồ thuật tốn tách nguồn âm dựa NMF Ma trận đặc trưng phổ nguồn thành phần, ký hiệu Wj , j = 1, , J, học từ liệu huấn luyện qua q trình tối ưu hóa hàm (2.2) mơ hình NMF Từ đó, ma trận đặc trưng phổ tất nguồn thành phần W xác định tham số đầu vào cho pha tách nguồn Trong pha tách nguồn, thuật toán ước lượng ma trận kích hoạt H theo cơng thức cập nhật tham số MU Sau ước lượng ma trận tham số θ = {W, H}, tín hiệu nguồn thành phần thứ j miền T-F tính tốn ˆ j = W j Hj cơng thức Wiener filtering: S X, ký hiệu phép nhân WH element-wise Hadamard Cuối cùng, tín hiệu nguồn thành phần biến đổi miền thời gian qua phép biến đổi ISTFT Lưu ý thuật toán nêu ước lượng thành phần theo quy tắc cập nhật tham số MU rules với hướng dẫn ma trận đặc trưng phổ W học trước từ liệu huấn luyện Do đó, thuật tốn hoạt động tốt có liệu huấn luyện kết phân tách khơng có liệu huấn luyện Điều xác thực qua kết thí nghiệm chương 2.3 2.3.1 Áp dụng NMF toán phát âm bất thường Mơ tả tốn Trong phần này, chúng tơi trình bầy cách áp dụng NMF để phát đoạn âm bất thường tín hiệu thu âm thực Chúng tơi đề xuất thuật tốn tự động luyện loại Ví dụ, tách tiếng nói bị trộn lẫn với âm nhiễu môi trường, chúng tơi thu thập file tiếng nói, file âm nhiễu khác nhau, file dài khoảng từ đến 10 giây làm liệu huấn luyện Các bước thuật tốn đề xuất mơ tả hình 3.1: (1) học ma trận phổ tổng quát GSSM từ mẫu huấn luyện NMF, (2) phân tách nguồn thành phần từ tín hiệu trộn qua q trình ước lượng H mơ hình NMF hết hợp với hàm ràng buộc thưa 3.2 Học mơ hình phổ tổng quát GSSM Hình 3.2: Ma trận phổ tổng quát GSSM Gọi slj (t) mẫu huấn luyện thứ l nguồn cần tách sj (t) Ở bước huấn luyện, NMF mã hóa đặc trưng phổ mẫu slj (t) ma trận Wjl Sau đó, ma trận phổ tổng quát U xây dựng từ thành phần Wjl mơ tả hình 3.2 3.3 Ước lượng H với công thức ràng buộc thưa đề xuất Ma trận phổ tổng qt U có kích thước lớn số mẫu huấn luyện tăng Hơn nữa, mẫu huấn luyện âm loại với nguồn cần tách, nên U có nhiều đặc trưng không phù hợp với nguồn cần tách Vì vậy, bước phân tách tín hiệu nguồn thành phần, ràng buộc thưa sử dụng nhằm hướng dẫn q trình ước lượng H kích hoạt phần nhỏ từ ma trận lớn U chứa đặc tính phổ phù hợp với nguồn cần tách Hàm mục tiêu có ràng buộc thưa viết sau [3]: D(V UH) + λΩ(H), H≥0 (3.4) với Ω(H) hàm ràng buộc thưa tác động lên ma trận H, λ số không âm thể mức độ ảnh hưởng ràng buộc thưa Có hai nhóm ràng buộc thưa công 12 bố block sparsity component sparsity sau: • Ràng buộc thưa Block: Ω1 (H) = G g=1 • Ràng buộc thưa Component: Ω2 (H) = log( + H(g) K k=1 1) log( + hk 1) Chúng đề xuất kết hợp hai nhóm ràng buộc thưa nêu cơng thức khái quát hóa (3.7), với γ tham số thể đóng góp thành phần ràng buộc thưa cơng thức kết hợp Hình ảnh ma trận kích hoạt mathbf H sử dụng ràng buộc thưa khác thể hình 3.3 G Ωnew (H) = γ K log( + H(g) 1) + (1 − γ) g=1 log( + hk k=1 13 ), (3.7) Hình 3.3: Hình ảnh ma trận H: (a) khơng sử dụng ràng buộc thưa, (b) với ràng buộc thưa Block, (c) với ràng buộc thưa Component, and (d) với ràng buộc thưa đề xuất 3.4 Thuật toán tách nguồn âm với hàm ràng buộc thưa Sau trình biến đổi đạo hàm hàm giá (3.4) với hàm ràng buộc thưa đề xuất (3.7), công thức cập nhật ma trận H là: H ← H U (V V.−2 ) U (V.−1 )+λ(γY+(1−γ)Z) Thuật toán tách nguồn âm đề xuất sử dụng mơ hình phổ tổng quát hàm ràng buộc thưa (2.7) mô tả Algorithm Trong đó, Y(g) ma trận có kích thước với ma trận H(g) , zk véc tơ kích thước với hk 3.5 Thí nghiệm 3.5.1 Dữ liệu thí nghiệm Bảng 3.2: Kết tách nguồn hai liệu Synthetic SiSEC-MUS 14 Chúng lựa chọn file âm từ sở liệu công bố sử dụng rộng rãi cộng đồng xử lý âm DEMAND1 SISEC2 cho bước học mơ hình GSSM Thuật toán đánh giá với tập liệu thử nghiệm khác Trong tập Synthetic tự tạo cách trộn tín hiệu tiếng nói âm nhiễu mơi trường theo tỷ lệ tín hiệu/nhiễu SNR=0 Hai tập lại, SiSEC-MUS SiSEC-BNG, liệu thử nghiệm công bố sử dụng phổ biến cộng đồng tách nguồn âm 3.5.2 Kết thử nghiệm Bảng 3.3: Kết phân tách giọng nói thu tập liệu SiSEC-BGN Kết thí nghiệm hai tập liệu Synthetic SiSEC-MUS bảng 3.2 cho thấy: Kết thuật toán "NMF -without training" thấp nhất, chứng tỏ thuật toán tách nguồn âm dựa NMF mô tả chương không phân tách tốt thiếu liệu huấn luyện Kết thuật toán sử dụng nhóm ràng buộc thưa tốt nhiều so với thuật tốn "NMF non-sparsity" Điều cho thấy vai trò quan trọng nhóm ràng buộc thưa q trình ước lượng nguồn thành phần Cuối cùng, thuật tốn đề xuất cho kết tốt tốt thuật toán sử dụng hai hàm ràng buộc thưa trước Kết khẳng định đề xuất kết hợp hai thành phần ràng buộc thưa nâng cao đáng kể hiệu tách nguồn âm http://parole.loria.fr/DEMAND/ http://sisec.wiki.irisa.fr 15 Kết thuật toán đề xuất gửi tham gia SiSEC năm 2016 So sánh với thuật tốn Liu tham gia năm đó, thuật toán đề xuất cho kết tốt hai độ đo SDR SIR, đặc biệt cho kết vượt trội độ đo tổng thể quan trọng SDR Thuật toán đề xuất đánh giá tốt thuật toán Liu ban tổ chức SiSEC 2016 [4] Mở rộng so sánh với thuật toán tách nguồn đơn kênh khác tham gia SiSEC từ năm 2013 nay, bảng 3.3 cho thấy kết thuật toán đề xuất so với thuật tốn López tốt tất thuật tốn lại Tuy nhiên thuật tốn López sử dụng thích người dùng phổ tín hiệu trộn để hướng dẫn tách nguồn Thuật tốn khơng thể thực khơng có tham gia chuyên gia âm 3.6 Tổng kết Trong chương 3, đề xuất thuật toán tách nguồn âm đơn kênh khơng có liệu huấn luyện xác cho nguồn cần tách Những đóng góp cụ thể gồm: • Đề xuất thuật toán phân tách âm thành phần từ tín hiệu trộn đơn kênh • Đề xuất cơng thức kết hợp hai nhóm ràng buộc thưa thành dạng tổng quát, có đóng góp hai thành phần ràng buộc thưa trước • Chúng xem xét khả hội tụ thuật tốn đề xuất theo số vòng lặp MU, tính ổn đinh hiệu phân tách thuật tốn thơng qua liệu thí nghiệm Kết thuật toán đề xuất gửi tham gia chiến dịch SiSEC năm 2016 Trong chương tiếp theo, chúng tơi đề xuất mở rộng thuật tốn cho trường hợp đa kênh cách kết hợp mơ hình NMF với mơ hình Gaussian cục Những kết chương công bố báo [1], [2], [4] [5] “Danh mục công trình cơng bố" luận án 16 CHƯƠNG 3: TÁCH NGUỒN ÂM THANH ĐA KÊNH SỬ DỤNG KẾT HỢP NMF TRONG MƠ HÌNH GAUSSIAN CỤC BỘ 4.1 4.1.1 Mơ hình hóa tốn tách nguồn đa kênh Mơ hình Gaussian cục Gọi x(t) tín hiệu trộn J nguồn âm thu âm mảng I microphones biểu diễn công thức (1.1), tách nguồn âm đa kênh vấn đề ước lượng tín hiệu nguồn thành phần cj (t) từ tín hiệu đầu vào x(t) Trong mơ hình Gaussian cục (LGM), tín hiệu nguồn thành phần miền T-F, ký hiệu cj (n, f ), biểu diễn theo chuẩn phân bố Gaussian với trung bình ma trận hiệp phương sai Σj (n, f ) = E(cj (n, f )cH j (n, f )) sau: cj (n, f ) ∼ Nc (0, Σj (n, f )), (4.1) với véc tơ kích thước I × 1, (.)H biểu diễn phép chuyển vị liên hợp (conjugate transposition) Ma trận hiệp phương sai xác định gồm hai thành phần: Σj (n, f ) = vj (n, f ) Rj (f ), (4.2) vj (n, f ) phương sai nguồn (source variance) mã hóa thay đổi lượng phổ nguồn âm tham số phụ thuộc thời gian t Rj (f ) ma trận hiệp phương sai không gian (spatial covariance) kích thước I × I mã hóa đặc tính khơng gian nguồn microphone, tham số không phụ thuộc t nguồn microphone không di chuyển Việc ước lượng nguồn thành phần cj (t) thực cách ước lương hai thành phần vj (n, f ) Rj (f ) 4.1.2 Mơ hình phương sai nguồn dựa NMF Khi kết hợp NMF mơ hình LGM, phương sai nguồn vj (n, f ) phân Kj tách theo NMF công thức vj (n, f ) = k=1 wjf k hjkn Trong wjf k phần F ×Kj tử ma trận đặc trưng phổ Wj ∈ R+ , hjkn phần tử ma trận kích hoạt K ×N Hj ∈ R+ j , Kj số lượng đặc trưng phổ mã hóa 4.1.3 Ước lượng tham số Các thành phần vj (n, f ) Rj (f ) ước lượng qua vòng lặp EM, vòng lặp gồm hai bước xử lý: bước E bước M Trong bước E, thuật toán cập nhật tham 17 số θ = {vj (n, f ), Rj (f )}j,n,f theo công thức: Rj (f ) = N N n=1 Σj (n, f ), vj (n, f ) (4.11) tr(R−1 (4.12) j (f )Σj (n, f )) I Khi kết hợp NMF mơ hình LGM, bước M vòng lặp EM, vòng lặp Kj MU mơ hình NMF cập nhật vj (n, f ) theo công thức vj (n, f ) = k=1 wjf k hjkn vj (n, f ) = 4.2 Thuật toán tách nguồn đa kênh đề xuất Mơ hình thuật tốn đề xuất thể hình 4.1 Trong pha huấn luyện, ma trận phổ tổng quát GSSM học từ mẫu huấn luyện mô tả phần 3.2 Ở pha phân tách, hai thành phần vj (n, f ) Rj (f ) ước lượng thuật toán tối ưu hóa kỳ vọng tổng quát (generalized expectation minimization - GEM), có kết hợp mơ hình NMF khai thác ma trận GSSM bước M Hình 4.1: Sơ đồ thuật tốn tách nguồn đa kênh đề xuất Trong chương 3, đề xuất cơng thức kết hợp hai nhóm ràng buộc thưa bước ước lượng ma trận H NMF Kết hợp với mơ hình LGM, chúng tơi đề 18 xuất hai tiêu chí tối ưu hóa để hướng dẫn ước lượng phương sai nguồn trung gian vòng lặp EM sau: • Source variance denoising: ước lượng phương sai nguồn riêng biệt NMF kết hợp với ràng buộc thưa đề xuất, công thức tối ưu hóa ma trận phương sai nguồn viết sau: D(Vj Uj Hj ) + λΩ(Hj ) (4.19) Hj ≥0 J • Source variance separation: Gọi V = j=1 Vj ma trận phương sai tổng nguồn thành phần, tiêu chí thứ hai tối ưu hóa ma trận phương sai tổng thể tất nguồn thành phần sau: D(V UH) + λΩ(H) H≥0 19 (4.20) Công thức cập nhật H cho cơng thức tối ưu hóa thứ H ← H U (V V.−2 ) U (V.−1 )+λ(γY+(1−γ Công thức dùng để cập nhật vj (n, f ) vòng lặp MU bước M Các bước chi tiết thuật toán đề xuất thể Algorithm 4.3 Thí nghiệm Hình 4.2: Sơ đồ tương quan hiệu suất tách nguồn theo số vòng lặp EM MU 4.3.1 Dữ liệu thí nghiệm Thuật tốn đề xuất đánh giá thí nghiệm tập liệu devset SiSEC2016-BGN1 Tập devset gồm file tín hiệu trộn tiếng nói âm nhiễu môi trường, file dài 10 giây 4.3.2 Sự hội tụ ổn định thuật toán Sự hội tụ thuật tốn: Hình 4.2 cho thấy thuật tốn hội tụ tốt với 10 25 vòng lặp MU, đạt giá trị bão hòa sau khoảng 10 vòng lặp EM Điều thể ảnh hưởng tốt mơ hình NMF mơ hình LGM Kết phân tách với giá trị khác λ γ: Hình 4.3 cho thấy kết tách giảm nhanh chóng với λ > 25 Kết tốt SDR quan sát thấy https://sisec.inria.fr/sisec-2016/bgn-2016/ 20 Hình 4.3: Sơ đồ tương quan hiệu suất tách nguồn theo tham số λ γ ứng với λ = 10 γ = 0.2 Với giá trị λ nhỏ, thay đổi γ ảnh hưởng kết tách thuật toán cho kết ổn định Những phân tích thể cơng thức kết hợp hai nhóm ràng buộc thưa đề xuất làm việc hiệu mơ hình LGM 4.3.3 Kết thí nghiệm Kết thu thuật toán đề xuất so sánh với kết thuật toán Arberet’s (là thuật toán sở thuật toán đề xuất) thuật toán tham gia SiSEC từ năm 2013 Điều thú vị thuật tốn đề xuất khơng có điều kiện ràng buộc thưa cho kết thấp thuật toán Arberet Điều lần khẳng định dư thừa GSSM Thuật toán “GSSM + SV denoising" cho kết tốt Arberet (ngoại trừ ISR TPS) cho thất việc khai thác GSSM bước phân tách giúp tăng đáng kể hiệu tách nguồn Thuật toán “GSSM + SV separation" cho kết tốt với SDR, SIR, OPS, IPS, so sánh với “GSSM + SV denoising" “GSSM’ + component sparsity", khẳng định hiệu tiêu chí tối ưu hóa tổng thể nguồn (4.20) Khi so sánh với thuật toán khác tham gia SiSEC nhiều năm, kết qủa cho thấy thuật tốn đề xuất tốt với nhóm tiêu chí dựa lượng, với nhóm tiêu chí dựa cảm thụ tai người Xem xét độ đo quan trọng SDR, thuật toán “GSSM + SV separation" cho kết thuật tốn Wang tốt thuật tốn lại Điều khẳng định thuật toán đề xuất nâng cao hiệu xuất tách nguồn âm mục tiêu đặt khẳng định kết hợp thành công NMF LGM Lưu ý sau dùng thuật toán phân tách, Wang sử dụng kỹ thuật xử lý lọc nhiễu để nâng cao chất lượng tín hiệu tiếng nói tách Hơn nữa, thuật tốn 21 Bảng 4.1 Kết phân tách giọng nói tập liệu SiSEC-BGN Wang sử dụng kỹ thuật phân tích ICA, khơng áp dụng cho trường hợp số nguồn âm nhiều số microphone Trong thuật tốn đề xuất áp dụng trường hợp 4.4 Tổng kết Chương mô tả thuật toán tách nguồn âm đa kênh theo hướng tiếp cận "weaklyinformed" Thuật toán đề xuất sử dụng mơ hình phổ tổng qt học NMF kết hợp mơ hình LGM Kết cụ thể sau: - Chúng tơi đề xuất hai tiêu chí tối ưu hóa cho q trình ước lượng vòng lặp EM, tính tốn cơng thức cập nhật tham số tương ứng với tiêu chí xây dựng thuật tốn tách nguồn đa kênh - Thí nghiệm thực tập liệu từ website uy tín SiSEC xác thực tính ổn định, hội tụ hiệu tách nguồn thuật toán đề xuất Chúng tơi gửi kết thuật tốn tham gia chiến dịch SiSEC 2016, đánh giá từ ban tổ chức cho thấy thuật toán đề xuất cho kết tốt với tiêu chí dự lượng, so với thuật tốn tham gia năm Những kết chương công bố báo [6] [7] “Danh mục công trình cơng bố" luận án 22 KẾT LUẬN Có nhiều tình thực tế mà âm thu hỗn hợp trộn nhiều nguồn âm khác Con người với khả thính giác bình thường dễ dàng xác định âm mục tiêu để nghe, hiểu Nhưng học máy nhiệm vụ lại vơ khó khăn Chúng nghiên cứu hướng tiếp cận sử dụng thơng tin hướng dẫn (weaklyinformed approach) để phân tách âm bị trộn lẫn hỗn hợp Trong đó, mơ hình phổ tổng qt GSSM huấn luyện từ vài ví dụ mẫu loại với âm cần phân tách trình ước lượng thuật tốn NMF Chúng tơi đề xuất cơng thức ràng buộc thưa cho bước ước lượng tham số Đồng thời chúng tơi tính tốn cơng thức cập nhật tham số theo hàm ràng buộc thưa đề xuất xây dựng thuật toán tách âm thành phần từ tín hiệu trộn đơn kênh Thí nghiệm thực với cài đặt khác ba liệu cho thấy hiệu thuật toán đơn kênh đề xuất Từ thuật toán đơn kênh, phát triển cho trường hợp đa kênh, kết hợp mơ hình phổ tổng qt GSSM với mơ hình hiệp phương sai khơng gian nguồn âm khn khổ mơ hình Gaussian (LGM) Trong mơ hình LGM, tham số ước lượng thuật toán tối ưu hóa kỳ vọng EM Để hướng dẫn ước lượng phương sai nguồn trung gian vòng lặp EM, chúng tơi đề xuất hai tiêu chí tối ưu hóa: (1) ước lượng phương sai nguồn riêng biệt mơ hình NMF kết hợp với ràng buộc thưa đề xuất, (2) ước lượng phương sai tất nguồn đồng thời mơ hình NMF kết hợp với ràng buộc thưa đề xuất Tiêu chí thứ hai xem bước tách thực bổ sung cho phương sai nguồn Hiệu suất phân tách thuật toán đề xuất khả hội tụ tính ổn định thuật tốn kiểm chứng qua thí nghiệm thực liệu SiSEC, công bố sử dụng rộng rãi cộng đồng xử lý âm Bên cạnh hai đóng góp nêu trên, chúng tơi đề xuất thuật tốn sử dụng NMF tự động trích xuất đoạn âm bất thường từ tín hiệu thu âm đơn kênh kích thước lớn Đóng góp nhằm mục đích hỗ trợ trình phát gán nhãn kiện âm Sau trích xuất kiện âm từ liệu, người gán nhãn cần nghe gán nhãn vị trí xuất đoạn âm bất thường thuật toán phát hiện, thay nghe tồn file âm dài Thí nghiệm thực liệu thu âm mơi trường ngồi trời, cấp cơng ty RION, Nhật Bản Kết thí nghiệm kiểm chứng khả mơ hình hóa tốt đặc tính phổ NMF Hướng phát triển tương lai: • Kiểm chứng hiệu thuật toán đề xuất hệ thống nhận dạng tiếng nói tự động ASR 23 • Phát triển ý tưởng phân tách phương sai nguồn thành phần sử dụng mơ hình DNN, dựa việc tìm hiểu kết nghiên cứu nhóm Nugraha [6] • Phát triển từ ý tưởng sử dụng mơ hình phổ tổng qt GSSM, nghiên cứu xây dựng mơ hình hiệp phương sai khơng gian tổng qt cho nguồn hỗn hợp • Kết hợp thuật tốn đề xuất với kỹ thuật khác như: loại nhiễu (dereverberation), source localization, post-filtering, nhằm xây dựng hệ thống phân tách âm đạt hiệu phân tách cao TÀI LIỆU THAM KHẢO [1] Févotte, C., Bertin, N., and Durrieu, J (2009) Non-negative matrix factorization with the itakura-saito divergence With application to music analysis Neural Computation, 21(3):793–830 [2] Lee, D D and Seung, H S (2001) Algorithms for non-negative matrix factorization In Advances in Neural and Information Processing Systems 13, pages 556–562 [3] Lefèvre, A., Bach, F., and Févotte, C (2011) Itakura-Saito non-negative matrix factorization with group sparsity In IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP), pages 2124 [4] Liutkus, A., Stăoter, F.-R., Rafii, Z., Kitamura, D., Rivet, B., Ito, N., Ono, N., and Fontecave, J (2017) The 2016 Signal Separation Evaluation Campaign In Latent Variable Analysis and Signal Separation, volume 10169, pages 323–332 Springer International Publishing, Cham [5] Makino, S., Lee, T.-W., and Sawada, H (2007) Blind Speech Separation Springer [6] Nugraha, A., Liutkus, A., and Vincent, E (2016) Multichannel audio source separation with deep neural networks IEEE/ACM Transactions on Audio, Speech, and Language Processing, 14(9):1652–1664 [7] Ono, N., Koldovský, Z., Miyabe, S., and Ito, N (2013) The 2013 Signal Separation Evaluation Campaign In 2013 IEEE International Workshop on Machine Learning for Signal Processing (MLSP), pages 1–6 [8] Ono, N., Rafii, Z., Kitamura, D., Ito, N., and Liutkus, A (2015) The 2015 Signal Separation Evaluation Campaign In Latent Variable Analysis and Signal Separation, volume 9237, pages 387–395 Springer International Publishing, Cham 24 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN Hien-Thanh Thi Duong, Quoc-Cuong Nguyen, Cong-Phuong Nguyen, Thanh Huan Tran, and Ngoc Q K Duong (2015) Speech enhancement based on nonnegative matrix factorization with mixed group sparsity constraint Proc ACM International Symposium on Information and Communication Technology (SoICT 2015), pp 247-251, Hue, Vietnam ISBN: 978-1-4503-3843-1, DOI:10.1145/2833258.2833276 Hien-Thanh Thi Duong, Quoc-Cuong Nguyen, Cong-Phuong Nguyen, and Ngoc Q K Duong (2016) Single-channel speaker-dependent speech enhancement exploiting generic noise model learned by non-negative matrix factorization Proc IEEE International Conference on Electronics, Information and Communication (ICEIC 2016), pp 268-271, Danang, Vietnam, ISBN 978-1-4673-8016-4, DOI 10.1109/ELINFOCOM.2016.7562952 Thanh Thi Hien Duong, Nobutaka Ono, Yasutaka Nakajima and Toshiya Ohshima (2016) Non-stationary Segment Detection Methods based on Single-basis Non-negative Matrix Factorization for Effective Annotation Proc IEEE Asia-Pacific Signal and Information Processing Association Annual Summit Conference (APSIPA ASC 2016), pp 16, Jeju, Korea, ISBN 978-9-8814-7682-1, DOI 10.1109/APSIPA.2016.7820760 Thanh Thi Hien Duong, Phuong Cong Nguyen, and Cuong Quoc Nguyen (2018) Exploiting Nonnegative Matrix Factorization with Mixed Group Sparsity Constraint to Separate Speech Signal from Singlechannel Mixture with Unknown Ambient Noise EAI Endorsed Transactions on Context-Aware Systems and Applications Vol 18(13), pp: 1-8 ISSN 2409-0026 Dương Thị Hiền Thanh, Nguyễn Công Phương, Nguyễn Quốc Cường (2018) Kết hợp mơ hình thừa số hóa ma trận khơng âm với ràng buộc thưa để khai thác mơ hình phổ tổng quát toán tách nguồn âm đơn kênh Tạp chí Nghiên cứu Khoa học Cơng nghệ quân Số 45, tháng năm 2018, trang 83 - 94 ISSN 18591043 Thanh Thi Hien Duong, Ngoc Q K Duong, Phuong Cong Nguyen, and Cuong Quoc Nguyen (2018) Multichannel source separation exploiting NMF-based generic source spectral model in Gaussian modeling framework In Latent Variable Analysis and Signal Separation, vol 10891, pp 547-557 Springer International Publishing DOI 10.1007/978-3-319-93764-9_50 (SCOPUS) Thanh Thi Hien Duong, Ngoc Q K Duong, Phuong Cong Nguyen, and Cuong Quoc Nguyen (2019) Gaussian modeling-based multichannel audio source separation exploiting generic source spectral model IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol 27(1), pp 32-43 ISSN 2329-9304, DOI 10.1109/TASLP.2018.28 69692 (ISI - Q1) ... MA TRẬN KHƠNG ÂM 2.1 2.1.1 Tổng quan thừa số hóa ma trận không âm (Nonnegative Matrix Factorization - NMF) NMF gì? Thừa số hóa ma trận khơng âm (NMF) kỹ thuật giảm số chiều ma trận sử dụng phổ. .. 1: TỔNG QUAN VỀ TÁCH NGUỒN ÂM THANH VÀ NHỮNG NGHIÊN CỨU LIÊN QUAN 1.1 1.1.1 Tổng quan tách nguồn âm Mơ hình chung hệ thống tách nguồn âm Tách nguồn âm kỹ thuật khôi phục âm thành phần (gọi nguồn. .. 3.2 Học mơ hình phổ tổng qt GSSM Hình 3.2: Ma trận phổ tổng quát GSSM Gọi slj (t) mẫu huấn luyện thứ l nguồn cần tách sj (t) Ở bước huấn luyện, NMF mã hóa đặc trưng phổ mẫu slj (t) ma trận Wjl

Ngày đăng: 13/03/2019, 12:53