Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
1,61 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI DƯƠNG THỊ HIỀN THANHTÁCHNGUỒNÂMTHANHSỬDỤNGMƠHÌNHPHỔNGUỒNTỔNG QT TRÊNCƠSỞTHỪASỐ HĨA MATRẬNKHƠNGÂM Ngành: Khoa học máy tính Mã số: 9480101 TĨM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội - 2019 Cơng trình hồn thành tại: Trường Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: PGS TS Nguyễn Quốc Cường TS Nguyễn Công Phương Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Trường họp Trường đại học Bách khoa Hà Nội Vào hồi , ngày tháng .năm Có thể tìm hiểu luận án thư viện: Thư viện Tạ Quang Bửu - Trường Đại học Bách khoa Hà Nội Thư viện Quốc gia Việt Nam MỞ ĐẦU Đặt vấn đề Trong thực tế sống có nhiều tình thu âmmàâm mong muốn bị trộn lẫn với nhiều âm khác, tiếng ồn từ môi trường xung quanh tiếng vọng tượng phản xạ âm mang lại Con người với khả thính giác bình thường qua hai tai dễ dàng định vị phân táchâm mong muốn để nghe, hiểu Tuy nhiên học máy việc lại trở nên vơ khó khăn Vì lý đó, nhiều ứng dụng thực tế (như hệ thống nhận dạng tiếng nói tự động, robotics, hội nghị truyền thanh/truyền hình, hệ thống hỗ trợ người khiếm thính, xử lý âm hậu kỳ sản xuất phim ảnh, ) sửdụng kỹ thuật táchnguồnâm [5] để phân tách, nâng cao chất lượng âm mong muốn bước tiền xử lý quan trọng Những công bố gần táchnguồnâm cho thấy điều kiện tỷ lệ nhiễu thấp khơngcó tượng phản xạ âm thanh, số thuật toán táchnguồnâm cho kết tương đối tốt Nhưng với mơi trường thu âm thực có mức nhiễu tiếng vọng cao kết táchâm thấp Các cơng bố cho thấy thuật tốn táchnguồn mù đạt kết phân tách chưa đủ tốt để đưa vào ứng dụng thực tế Một số nghiên cứu sửdụng liệu huấn luyện, thông tin phụ trợ tương đối cụ thể (như táchâm nhạc biết trước nhạc, tách tiếng nói biết transcript, ) để hướng dẫn trình phân tách đạt kết tốt [4, 7, 8] Tuy nhiên, liệu huấn luyện thông tin hướng dẫn cụ thể thường không dễ dàng có nhiều tình ứng dụng Từ phân tích đó, chúng tơi tập trung phát triển thuật tốn táchnguồnâm trường hợp nhiều khó khăn thách thức: tín hiệu thu âm mơi trường có phản xạ, chứa nhiễu mức cao, số lượng nguồnâm lớn số microphone (determined/ underdetermined) khơngcó liệu huấn luyện cho âm cần phân tách Tiếp cận theo hướng weakly-informed, sửdụng thông tin phụ trợ chung chung để hướng dẫn q trình phân tách, cần biết âmcó hỗn hợp loại (ví dụ tiếng nói, âm môi trường hay âm nhạc, ) Mục tiêu phạm vi nghiên cứu luận án • Mục tiêu nghiên cứu Mục tiêu luận án nghiên cứu phát triển thuật tốn táchnguồnâm thực phân táchnguồn hiệu điều kiện thu âm mơi trường thực có phản xạ âm (high reverberation) sốnguồnâm nhiều số microphone (determined/ underdetermined) Chúng tơi tìm hiểu kỹ thuật phân táchâm khác nhau, từ lựa chọn kỹ thuật phù hợp với mục tiêu đặt để nghiên cứu phát triển Chúng đề xuất thuật toán cho hai trường hợp táchnguồn đơn kênh đa kênh Dựa vào thông tin loại âm xuất tín hiệu trộn, chúng tơi tìm kiếm số mẫu huấn luyện cho thuật tốn đề xuất Ví dụ, với tình nâng cao chất lượng tiếng nói mơi trường thực, xác định âm cần tách tiếng nói, thành phần lại âm mơi trường Từ tìm kiếm vài tệp ngắn (khoảng giây), chứa âm môi trường (cafeteria, subway, square, ) tiếng nói làm liệu huấn luyện Thuật tốn đánh giá thí nghiệm với hai trường hợp: phân tách tiếng nói nhiễu mơi trường, phân tách giọng hát âm nhạc từ hát Để dễ dàng so sánh với nghiên cứu khác giới, liệu tự xây dựng, sửdụng liệu chuẩn công bố SiSEC (Signal Separation Evaluation Campaign ) • Phạm vi nghiên cứu Mục tiêu nghiên cứu khơi phục tín hiệu gốc nguồnthành phần (original sources) trường hợp táchnguồn đơn kênh, khơi phục tín hiệu thu microphone (spatial images) nguồnthành phần trường hợp đa kênh Hơn nữa, nghiên cứu dựa giả định biết trước sốnguồnthành phần biết nguồn thuộc loại âm Những đóng góp luận án Chúng tơi đề xuất thuật toán táchnguồnâm cho hai trường hợp đơn kênh đa kênh Kết nghiên cứu công bố báo Kết thuật toán đề xuất gửi tới chiến dịch đánh giá táchnguồnâm quốc tế SiSEC 20162 đạt kết tốt với tiêu chí đánh giá dựa lượng Những đóng góp cụ thể luận án sau: • Đề xuất thuật toán táchnguồnâm đơn kênh sửdụng tập mẫu huấn luyện vài file âm ngắn (khoảng giây) loại với nguồn cần tách Trong thuật tốn đề xuất, mơhìnhphổtổng qt GSSM âm xây dựng cách học đặc trưng phổ từ tập mẫu huấn luyện, sau sửdụng để hướng dẫn bước phân táchdùngmơhìnhthừasốhóamatrậnkhơngâm (Nonnegative Matrix Factorization - NMF) Chúng đề xuất công thức ràng buộc thưa cho hàm giá trình ước lượng nguồnthành phần bước phân http://sisec.inria.fr/ http://sisec.inria.fr/sisec-2016/ tách Thuật toán xác thực hiệu phân tách, khả hội tụ tính ổn định thay đổi tham số thơng qua thí nghiệm liệu với thiết lập unsupervised semi-supervised • Đề xuất thuật toán táchnguồn đa kênh kết hợp NMF mơhình Gaussian cục (Local Gaussian Model - LGM) Chúng tơi đề xuất hai tiêu chí tối ưu cho bước ước lượng thông tin phổnguồnthành phần: (1) ước lượng đặc trưng phổnguồn riêng biệt (2) ước lượng đồng thời tất nguồn Từ đó, chúng tơi tính tốn cơng thức cập nhật tham số tương ứng với tiêu chí ước lượng xây dựng thuật toán Hiệu phân tách khả hội tụ tính ổn định thuật tốn xác thực thí nghiệm liệu SiSEC (Signal Separation Evaluation Campaign), liệu dùngphổ biến cộng đồng táchnguồnâm giới • Ngồi hai đóng góp nêu trên, q trình nghiên cứu ứng dụngmơhình NMF xử lý âm thanh, đề xuất ba phương pháp tự động trích xuất đoạn âm bất thường từ tín hiệu thu âm ngồi trời kích thước lớn Thí nghiệm chứng minh khả mơhìnhhóa tốt đặc trưng phổâm NMF Thuật toán đề xuất chuyển giao cho công ty RION (tại Tokyo-Nhật Bản) để phát triển sửdụng hỗ trợ việc phát hiện, gán nhãn kiện âm Cấu trúc luận án • Chương 1: Giới thiệu tổng quan kỹ thuật táchnguồnâm kết nghiên cứu liên quan cơng bố, đồng thời mơhìnhhóa tốn táchnguồnâmmà luận án nghiên cứu giải • Chương 2: Chương giới thiệu mơhình NMF, sửdụng rộng rãi xử lý âm Chúng tơi trình bầy thuật toán táchnguồnâm dựa NMF, thuật tốn sở cho đề xuất chúng tơi Bên cạnh đó, chúng tơi đề xuất phương pháp trích xuất đoạn âm bất thường xuất file ghi âm dài Đề xuất cho thấy hướng ứng dụng khác NMF, đồng thời xác thực khả mãhóa đặc trưng phổâmmơhình NMF • Chương 3: Chúng tơi đề xuất thuật tốn táchnguồn đơn kênh Trong đó, mơhìnhphổtổngquát GSSM huấn luyện từ vài ví dụ mẫu loại với âm cần phân táchmơhình NMF Chúng tơi đề xuất hàm ràng buộc thưa thớt (sparsity-inducing penalty function) cho bước ước lượng tham số Đồng thời tính tốn công thức cập nhật tham số theo hàm ràng buộc thưa đề xuất xây dựng thuật toán Hiệu thuật toán đề xuất xác thực thí nghiệm ba liệu với cài đặt khác • Chương 4: Chương mơ tả thuật toán táchnguồn đa kênh mới, kết hợp mơhìnhphổtổng qt GSSM với mơhình hiệp phương sai không gian nguồnâm khuôn khổ mơhình LGM Để hướng dẫn ước lượng phương sai nguồn trung gian vòng lặp EM, chúng tơi đề xuất hai tiêu chí tối ưu hóa: (1) ước lượng phương sai nguồn riêng biệt mơhình NMF kết hợp với ràng buộc thưa đề xuất, (2) ước lượng phương sai tất nguồn đồng thời Cuối thí nghiệm nhằm đánh giá hiệu suất phân tách thuật toán đề xuất khả hội tụ tính ổn định thuật tốn Phần cuối luận án, chúng tơi nêu đánh giá, kết luận kết nghiên cứu đạt đề xuất định hướng nghiên cứu tương lai CHƯƠNG 1: TỔNG QUAN VỀ TÁCHNGUỒNÂMTHANH VÀ NHỮNG NGHIÊN CỨU LIÊN QUAN 1.1 1.1.1 Tổng quan táchnguồnâmMôhình chung hệ thống táchnguồnâmTáchnguồnâm kỹ thuật khôi phục âmthành phần (gọi nguồn âm) từ tín hiệu chứa âm bị trộn lẫn (gọi tín hiệu trộn (mixture)) đơn kênh đa kênh Các hệ thống táchnguồnâm thường ước lượng nguồnthành phần miền thời gian - tần số (T-F), dùng hai hai mơhình sau: (1) mơhìnhphổ spectral model mãhóa khai thác thông tin đặc trưng phổâm thanh, (2) mơhìnhkhơng gian spatial model mãhóa khai thác thông tin không gian Sau trình ước lượng, âmthành phần biến đổi miền thời gian qua phép biến đổi Fourier ngược (ISTFT) 1.1.2 Xây dựng tốn Giả sử tín hiệu trộn từ J nguồnâm thu âm I microphone, với j ∈ {1, 2, , J} sốnguồnâm i ∈ {1, 2, , I} số microphone Tín hiệu trộn x(t) = [x1 (t), , xI (t)]T ∈ RI×1 biểu diễn theo công thức sau [5]: J x(t) = cj (t), (1.1) j=1 với cj (t) = [c1j (t), , xIj (t)]T ∈ RI×1 tín hiệu thu microphone nguồn thứ j, gọi spatial image nguồn j, T phép toán chuyển vị véc tơ ma trận, t ∈ {0, 1, , T − 1} số khung thời gian T độ dài thời gian tín hiệu Cơng thức (1.1) miền thời gian - tần số (sau phép biến đổi Fourier STFT) viết sau: J x(n, f ) = cj (n, f ) (1.3) j=1 với cj (n, f ) ∈ CI×1 x(n, f ) ∈ CI×1 biểu diễn miền T-F tương ứng cj (t) x(t) n = 1, 2, , N số khung thời gian f = 1, 2, , F biểu diễn số bin tần số Mục tiêu hệ thống táchnguồnâm khôi phục J tín hiệu nguồnthành phần sj (t) (original source),hoặc khơi phục tín hiệu nguồnkhơng gian (spatial images) cj (t) từ tín hiêu trộn I kênh x(t) 1.2 Những nghiên cứu liên quan • Các mơhình phổ: Phần giới thiệu ba mơhìnhphổ biến, dùng để mãhóa khai thác thơng tin phổâm Đó mơhình Gaussian (Spectral GMM), mơhìnhthừasốhóamatrậnkhơngâm (NMF), deep neural network (DNN) • Các mơhìnhkhơng gian: Trong phần này, giới thiệu ba kỹ thuật mơhìnhhóa khai thác đặc tính khơng gian mơi trường truyền âm Đó interchannel intensity/time difference (IID/ITD), rank-1 mixing vector, mơhìnhmơhình hiệp phương sai khơng gian full-rank (full-rank spatial covariance model) 1.3 Các tiêu chí đánh giá nguồntách • Energy-based criteria: Nhóm tiêu chí dựa lượng gồm có độ đo, đo đơn vị dB với giá trị cao tốt Bốn độ đo Signal to Distortion Ratio (SDR), Signal to Artifacts Ratio (SAR), Signal to Interference Ratio (SIR), source Image to Spatial distortion Ratio (ISR) • Perceptually-based criteria: Nhóm tiêu chí đánh giá dựa cảm thụ tai người gồm độ đo: Overall Perceptual Score (OPS), Artifacts-related Perceptual Score (APS), Interference-related Perceptual Score (IPS), Target-related Perceptual Score (TPS) Các độ đo có giá trị từ đến 100, giá trị cao biểu diễn hiệu phân tách tốt Tổng kết Trong chương này, giới thiệu tổng quan kỹ thuật táchnguồnâm kiến thức liên quan, đồng thời xây dựng toán tập trung nghiên cứu luận án CHƯƠNG 2: PHƯƠNG PHÁP THỪASỐHÓAMATRẬNKHÔNGÂM 2.1 2.1.1 Tổng quan thừasốhóamatrậnkhơngâm (Nonnegative Matrix Factorization - NMF) NMF gì? Thừasốhóamatrậnkhơngâm (NMF) kỹ thuật giảm số chiều matrậnsửdụngphổ biến phân tích liệu khơngâm ×N Cho matrậnkhơngâm V ∈ RF kích thước F × N , NMF thực phân tách + ×K V thành hai matrậnkhơngâm W ∈ RF H ∈ RK×N cho V ≈ WH NMF + + dùngphổ biến xử lý tín hiệu, có lĩnh vực xử lý âm [1] 2.1.2 Hàm giá Việc phân táchmatrận V thành hai matrận W H thực q trình tối ưu hóa hàm mục tiêu [1]: H≥0,W≥0 D(V WH), (2.2) N x x với D(V WH) = F f =1 n=1 dIS (Vf m [WH]f m ), dIS (x y) = y − log( y ) − Itakura Saito divergence sửdụngphổ biến với tín hiệu âm 2.1.3 Quy tắc cập nhật tham số MU rules Để tối ưu hóa hàm mục tiêu (2.2), Lee Seung đề xuất quy tắc cập nhật cho thành phần NMF, gọi multiplicative update (MU) rules [2] viết sau: WT (WH).(β−2) H←H WT (WH) (WH).(β−2) W←W 2.2 V (β−1) , (2.13) , (2.14) V HT (WH).(β−1) HT Áp dụng NMF toán táchnguồnâmMơhình chung thuật tốn táchnguồnâm dựa NMF mô tả hình 2.3 gồm hai trình: (1) học đặc tính phổnguồn từ liệu huấn luyện mơhình NMF, (2) ước lượng tín hiệu nguồnthành phần từ tín hiệu trộn dựa matrận đặc trưng phổ học trước Hình 2.3: Sơ đồ thuật tốn táchnguồnâm dựa NMF Matrận đặc trưng phổnguồnthành phần, ký hiệu Wj , j = 1, , J, học từ liệu huấn luyện qua q trình tối ưu hóa hàm (2.2) mơhình NMF Từ đó, matrận đặc trưng phổ tất nguồnthành phần W xác định tham số đầu vào cho pha táchnguồn Trong pha tách nguồn, thuật toán ước lượng matrận kích hoạt H theo cơng thức cập nhật tham số MU Sau ước lượng matrận tham số θ = {W, H}, tín hiệu nguồnthành phần thứ j miền T-F tính tốn ˆ j = W j Hj cơng thức Wiener filtering: S X, ký hiệu phép nhân WH element-wise Hadamard Cuối cùng, tín hiệu nguồnthành phần biến đổi miền thời gian qua phép biến đổi ISTFT Lưu ý thuật toán nêu ước lượng thành phần theo quy tắc cập nhật tham số MU rules với hướng dẫn matrận đặc trưng phổ W học trước từ liệu huấn luyện Do đó, thuật tốn hoạt động tốt có liệu huấn luyện kết phân táchkhơngcó liệu huấn luyện Điều xác thực qua kết thí nghiệm chương 2.3 2.3.1 Áp dụng NMF toán phát âm bất thường Mơ tả tốn Trong phần này, chúng tơi trình bầy cách áp dụng NMF để phát đoạn âm bất thường tín hiệu thu âm thực Chúng tơi đề xuất thuật tốn tự động luyện loại Ví dụ, tách tiếng nói bị trộn lẫn với âm nhiễu môi trường, chúng tơi thu thập file tiếng nói, file âm nhiễu khác nhau, file dài khoảng từ đến 10 giây làm liệu huấn luyện Các bước thuật tốn đề xuất mơ tả hình 3.1: (1) học matrậnphổtổngquát GSSM từ mẫu huấn luyện NMF, (2) phân táchnguồnthành phần từ tín hiệu trộn qua q trình ước lượng H mơhình NMF hết hợp với hàm ràng buộc thưa 3.2 Học mơhìnhphổtổngquát GSSM Hình 3.2: Matrậnphổtổngquát GSSM Gọi slj (t) mẫu huấn luyện thứ l nguồn cần tách sj (t) Ở bước huấn luyện, NMF mãhóa đặc trưng phổ mẫu slj (t) matrận Wjl Sau đó, matrậnphổtổngquát U xây dựng từ thành phần Wjl mơ tả hình 3.2 3.3 Ước lượng H với công thức ràng buộc thưa đề xuất Matrậnphổtổng qt U có kích thước lớn số mẫu huấn luyện tăng Hơn nữa, mẫu huấn luyện âm loại với nguồn cần tách, nên U có nhiều đặc trưng không phù hợp với nguồn cần tách Vì vậy, bước phân tách tín hiệu nguồnthành phần, ràng buộc thưasửdụng nhằm hướng dẫn q trình ước lượng H kích hoạt phần nhỏ từ matrận lớn U chứa đặc tính phổ phù hợp với nguồn cần tách Hàm mục tiêu có ràng buộc thưa viết sau [3]: D(V UH) + λΩ(H), H≥0 (3.4) với Ω(H) hàm ràng buộc thưa tác động lên matrận H, λ sốkhôngâm thể mức độ ảnh hưởng ràng buộc thưaCó hai nhóm ràng buộc thưa công 12 bố block sparsity component sparsity sau: • Ràng buộc thưa Block: Ω1 (H) = G g=1 • Ràng buộc thưa Component: Ω2 (H) = log( + H(g) K k=1 1) log( + hk 1) Chúng đề xuất kết hợp hai nhóm ràng buộc thưa nêu cơng thức khái quáthóa (3.7), với γ tham số thể đóng góp thành phần ràng buộc thưa cơng thức kết hợp Hình ảnh matrận kích hoạt mathbf H sửdụng ràng buộc thưa khác thể hình 3.3 G Ωnew (H) = γ K log( + H(g) 1) + (1 − γ) g=1 log( + hk k=1 13 ), (3.7) Hình 3.3: Hình ảnh matrận H: (a) khơngsửdụng ràng buộc thưa, (b) với ràng buộc thưa Block, (c) với ràng buộc thưa Component, and (d) với ràng buộc thưa đề xuất 3.4 Thuật toán táchnguồnâm với hàm ràng buộc thưa Sau trình biến đổi đạo hàm hàm giá (3.4) với hàm ràng buộc thưa đề xuất (3.7), công thức cập nhật matrận H là: H ← H U (V V.−2 ) U (V.−1 )+λ(γY+(1−γ)Z) Thuật toán táchnguồnâm đề xuất sửdụngmơhìnhphổtổngquát hàm ràng buộc thưa (2.7) mô tả Algorithm Trong đó, Y(g) matrậncó kích thước với matrận H(g) , zk véc tơ kích thước với hk 3.5 Thí nghiệm 3.5.1 Dữ liệu thí nghiệm Bảng 3.2: Kết táchnguồn hai liệu Synthetic SiSEC-MUS 14 Chúng lựa chọn file âm từ sở liệu công bố sửdụng rộng rãi cộng đồng xử lý âm DEMAND1 SISEC2 cho bước học mơhình GSSM Thuật toán đánh giá với tập liệu thử nghiệm khác Trong tập Synthetic tự tạo cách trộn tín hiệu tiếng nói âm nhiễu mơi trường theo tỷ lệ tín hiệu/nhiễu SNR=0 Hai tập lại, SiSEC-MUS SiSEC-BNG, liệu thử nghiệm công bố sửdụngphổ biến cộng đồng táchnguồnâm 3.5.2 Kết thử nghiệm Bảng 3.3: Kết phân tách giọng nói thu tập liệu SiSEC-BGN Kết thí nghiệm hai tập liệu Synthetic SiSEC-MUS bảng 3.2 cho thấy: Kết thuật toán "NMF -without training" thấp nhất, chứng tỏ thuật toán táchnguồnâm dựa NMF mô tả chương không phân tách tốt thiếu liệu huấn luyện Kết thuật toán sửdụng nhóm ràng buộc thưa tốt nhiều so với thuật tốn "NMF non-sparsity" Điều cho thấy vai trò quan trọng nhóm ràng buộc thưa q trình ước lượng nguồnthành phần Cuối cùng, thuật tốn đề xuất cho kết tốt tốt thuật toán sửdụng hai hàm ràng buộc thưa trước Kết khẳng định đề xuất kết hợp hai thành phần ràng buộc thưa nâng cao đáng kể hiệu táchnguồnâm http://parole.loria.fr/DEMAND/ http://sisec.wiki.irisa.fr 15 Kết thuật toán đề xuất gửi tham gia SiSEC năm 2016 So sánh với thuật tốn Liu tham gia năm đó, thuật toán đề xuất cho kết tốt hai độ đo SDR SIR, đặc biệt cho kết vượt trội độ đo tổng thể quan trọng SDR Thuật toán đề xuất đánh giá tốt thuật toán Liu ban tổ chức SiSEC 2016 [4] Mở rộng so sánh với thuật toán táchnguồn đơn kênh khác tham gia SiSEC từ năm 2013 nay, bảng 3.3 cho thấy kết thuật toán đề xuất so với thuật tốn López tốt tất thuật tốn lại Tuy nhiên thuật tốn López sửdụng thích người dùngphổ tín hiệu trộn để hướng dẫn táchnguồn Thuật tốn khơng thể thực khơngcó tham gia chuyên gia âm 3.6 Tổng kết Trong chương 3, đề xuất thuật toán táchnguồnâm đơn kênh khơngcó liệu huấn luyện xác cho nguồn cần tách Những đóng góp cụ thể gồm: • Đề xuất thuật toán phân táchâmthành phần từ tín hiệu trộn đơn kênh • Đề xuất cơng thức kết hợp hai nhóm ràng buộc thưathành dạng tổng quát, có đóng góp hai thành phần ràng buộc thưa trước • Chúng xem xét khả hội tụ thuật tốn đề xuất theo số vòng lặp MU, tính ổn đinh hiệu phân tách thuật tốn thơng qua liệu thí nghiệm Kết thuật toán đề xuất gửi tham gia chiến dịch SiSEC năm 2016 Trong chương tiếp theo, chúng tơi đề xuất mở rộng thuật tốn cho trường hợp đa kênh cách kết hợp mơhình NMF với mơhình Gaussian cục Những kết chương công bố báo [1], [2], [4] [5] “Danh mục công trình cơng bố" luận án 16 CHƯƠNG 3: TÁCHNGUỒNÂMTHANH ĐA KÊNH SỬDỤNG KẾT HỢP NMF TRONG MƠHÌNH GAUSSIAN CỤC BỘ 4.1 4.1.1 Mơhìnhhóa tốn táchnguồn đa kênh Mơhình Gaussian cục Gọi x(t) tín hiệu trộn J nguồnâm thu âm mảng I microphones biểu diễn công thức (1.1), táchnguồnâm đa kênh vấn đề ước lượng tín hiệu nguồnthành phần cj (t) từ tín hiệu đầu vào x(t) Trong mơhình Gaussian cục (LGM), tín hiệu nguồnthành phần miền T-F, ký hiệu cj (n, f ), biểu diễn theo chuẩn phân bố Gaussian với trung bình matrận hiệp phương sai Σj (n, f ) = E(cj (n, f )cH j (n, f )) sau: cj (n, f ) ∼ Nc (0, Σj (n, f )), (4.1) với véc tơ kích thước I × 1, (.)H biểu diễn phép chuyển vị liên hợp (conjugate transposition) Matrận hiệp phương sai xác định gồm hai thành phần: Σj (n, f ) = vj (n, f ) Rj (f ), (4.2) vj (n, f ) phương sai nguồn (source variance) mãhóa thay đổi lượng phổnguồnâm tham số phụ thuộc thời gian t Rj (f ) matrận hiệp phương sai không gian (spatial covariance) kích thước I × I mãhóa đặc tính khơng gian nguồn microphone, tham sốkhông phụ thuộc t nguồn microphone không di chuyển Việc ước lượng nguồnthành phần cj (t) thực cách ước lương hai thành phần vj (n, f ) Rj (f ) 4.1.2 Mơhình phương sai nguồn dựa NMF Khi kết hợp NMF mơhình LGM, phương sai nguồn vj (n, f ) phân Kj tách theo NMF công thức vj (n, f ) = k=1 wjf k hjkn Trong wjf k phần F ×Kj tử matrận đặc trưng phổ Wj ∈ R+ , hjkn phần tử matrận kích hoạt K ×N Hj ∈ R+ j , Kj số lượng đặc trưng phổmãhóa 4.1.3 Ước lượng tham số Các thành phần vj (n, f ) Rj (f ) ước lượng qua vòng lặp EM, vòng lặp gồm hai bước xử lý: bước E bước M Trong bước E, thuật toán cập nhật tham 17 số θ = {vj (n, f ), Rj (f )}j,n,f theo công thức: Rj (f ) = N N n=1 Σj (n, f ), vj (n, f ) (4.11) tr(R−1 (4.12) j (f )Σj (n, f )) I Khi kết hợp NMF mơhình LGM, bước M vòng lặp EM, vòng lặp Kj MU mơhình NMF cập nhật vj (n, f ) theo công thức vj (n, f ) = k=1 wjf k hjkn vj (n, f ) = 4.2 Thuật toán táchnguồn đa kênh đề xuất Mơhình thuật tốn đề xuất thể hình 4.1 Trong pha huấn luyện, matrậnphổtổngquát GSSM học từ mẫu huấn luyện mô tả phần 3.2 Ở pha phân tách, hai thành phần vj (n, f ) Rj (f ) ước lượng thuật toán tối ưu hóa kỳ vọng tổngquát (generalized expectation minimization - GEM), có kết hợp mơhình NMF khai thác matrận GSSM bước M Hình 4.1: Sơ đồ thuật tốn táchnguồn đa kênh đề xuất Trong chương 3, đề xuất cơng thức kết hợp hai nhóm ràng buộc thưa bước ước lượng matrận H NMF Kết hợp với mơhình LGM, chúng tơi đề 18 xuất hai tiêu chí tối ưu hóa để hướng dẫn ước lượng phương sai nguồn trung gian vòng lặp EM sau: • Source variance denoising: ước lượng phương sai nguồn riêng biệt NMF kết hợp với ràng buộc thưa đề xuất, công thức tối ưu hóamatrận phương sai nguồn viết sau: D(Vj Uj Hj ) + λΩ(Hj ) (4.19) Hj ≥0 J • Source variance separation: Gọi V = j=1 Vj matrận phương sai tổngnguồnthành phần, tiêu chí thứ hai tối ưu hóamatrận phương sai tổng thể tất nguồnthành phần sau: D(V UH) + λΩ(H) H≥0 19 (4.20) Công thức cập nhật H cho cơng thức tối ưu hóa thứ H ← H U (V V.−2 ) U (V.−1 )+λ(γY+(1−γ Công thức dùng để cập nhật vj (n, f ) vòng lặp MU bước M Các bước chi tiết thuật toán đề xuất thể Algorithm 4.3 Thí nghiệm Hình 4.2: Sơ đồ tương quan hiệu suất táchnguồn theo số vòng lặp EM MU 4.3.1 Dữ liệu thí nghiệm Thuật tốn đề xuất đánh giá thí nghiệm tập liệu devset SiSEC2016-BGN1 Tập devset gồm file tín hiệu trộn tiếng nói âm nhiễu môi trường, file dài 10 giây 4.3.2 Sự hội tụ ổn định thuật toán Sự hội tụ thuật tốn: Hình 4.2 cho thấy thuật tốn hội tụ tốt với 10 25 vòng lặp MU, đạt giá trị bão hòa sau khoảng 10 vòng lặp EM Điều thể ảnh hưởng tốt mơhình NMF mơhình LGM Kết phân tách với giá trị khác λ γ: Hình 4.3 cho thấy kết tách giảm nhanh chóng với λ > 25 Kết tốt SDR quan sát thấy https://sisec.inria.fr/sisec-2016/bgn-2016/ 20 Hình 4.3: Sơ đồ tương quan hiệu suất táchnguồn theo tham số λ γ ứng với λ = 10 γ = 0.2 Với giá trị λ nhỏ, thay đổi γ ảnh hưởng kết tách thuật toán cho kết ổn định Những phân tích thể cơng thức kết hợp hai nhóm ràng buộc thưa đề xuất làm việc hiệu mơhình LGM 4.3.3 Kết thí nghiệm Kết thu thuật toán đề xuất so sánh với kết thuật toán Arberet’s (là thuật toán sở thuật toán đề xuất) thuật toán tham gia SiSEC từ năm 2013 Điều thú vị thuật tốn đề xuất khơngcó điều kiện ràng buộc thưa cho kết thấp thuật toán Arberet Điều lần khẳng định dư thừa GSSM Thuật toán “GSSM + SV denoising" cho kết tốt Arberet (ngoại trừ ISR TPS) cho thất việc khai thác GSSM bước phân tách giúp tăng đáng kể hiệu táchnguồn Thuật toán “GSSM + SV separation" cho kết tốt với SDR, SIR, OPS, IPS, so sánh với “GSSM + SV denoising" “GSSM’ + component sparsity", khẳng định hiệu tiêu chí tối ưu hóatổng thể nguồn (4.20) Khi so sánh với thuật toán khác tham gia SiSEC nhiều năm, kết qủa cho thấy thuật tốn đề xuất tốt với nhóm tiêu chí dựa lượng, với nhóm tiêu chí dựa cảm thụ tai người Xem xét độ đo quan trọng SDR, thuật toán “GSSM + SV separation" cho kết thuật tốn Wang tốt thuật tốn lại Điều khẳng định thuật toán đề xuất nâng cao hiệu xuất táchnguồnâm mục tiêu đặt khẳng định kết hợp thành công NMF LGM Lưu ý sau dùng thuật toán phân tách, Wang sửdụng kỹ thuật xử lý lọc nhiễu để nâng cao chất lượng tín hiệu tiếng nói tách Hơn nữa, thuật tốn 21 Bảng 4.1 Kết phân tách giọng nói tập liệu SiSEC-BGN Wang sửdụng kỹ thuật phân tích ICA, khơng áp dụng cho trường hợp sốnguồnâm nhiều số microphone Trong thuật tốn đề xuất áp dụng trường hợp 4.4 Tổng kết Chương mô tả thuật toán táchnguồnâm đa kênh theo hướng tiếp cận "weaklyinformed" Thuật toán đề xuất sửdụngmơhìnhphổtổng qt học NMF kết hợp mơhình LGM Kết cụ thể sau: - Chúng tơi đề xuất hai tiêu chí tối ưu hóa cho q trình ước lượng vòng lặp EM, tính tốn cơng thức cập nhật tham số tương ứng với tiêu chí xây dựng thuật tốn táchnguồn đa kênh - Thí nghiệm thực tập liệu từ website uy tín SiSEC xác thực tính ổn định, hội tụ hiệu táchnguồn thuật toán đề xuất Chúng tơi gửi kết thuật tốn tham gia chiến dịch SiSEC 2016, đánh giá từ ban tổ chức cho thấy thuật toán đề xuất cho kết tốt với tiêu chí dự lượng, so với thuật tốn tham gia năm Những kết chương công bố báo [6] [7] “Danh mục công trình cơng bố" luận án 22 KẾT LUẬN Có nhiều tình thực tế màâm thu hỗn hợp trộn nhiều nguồnâm khác Con người với khả thính giác bình thường dễ dàng xác định âm mục tiêu để nghe, hiểu Nhưng học máy nhiệm vụ lại vơ khó khăn Chúng nghiên cứu hướng tiếp cận sửdụng thơng tin hướng dẫn (weaklyinformed approach) để phân táchâm bị trộn lẫn hỗn hợp Trong đó, mơhìnhphổtổng qt GSSM huấn luyện từ vài ví dụ mẫu loại với âm cần phân tách trình ước lượng thuật tốn NMF Chúng tơi đề xuất cơng thức ràng buộc thưa cho bước ước lượng tham số Đồng thời chúng tơi tính tốn cơng thức cập nhật tham số theo hàm ràng buộc thưa đề xuất xây dựng thuật toán táchâmthành phần từ tín hiệu trộn đơn kênh Thí nghiệm thực với cài đặt khác ba liệu cho thấy hiệu thuật toán đơn kênh đề xuất Từ thuật toán đơn kênh, phát triển cho trường hợp đa kênh, kết hợp mơhìnhphổtổng qt GSSM với mơhình hiệp phương sai khơng gian nguồnâm khn khổ mơhình Gaussian (LGM) Trong mơhình LGM, tham số ước lượng thuật toán tối ưu hóa kỳ vọng EM Để hướng dẫn ước lượng phương sai nguồn trung gian vòng lặp EM, chúng tơi đề xuất hai tiêu chí tối ưu hóa: (1) ước lượng phương sai nguồn riêng biệt mơhình NMF kết hợp với ràng buộc thưa đề xuất, (2) ước lượng phương sai tất nguồn đồng thời mơhình NMF kết hợp với ràng buộc thưa đề xuất Tiêu chí thứ hai xem bước tách thực bổ sung cho phương sai nguồn Hiệu suất phân tách thuật toán đề xuất khả hội tụ tính ổn định thuật tốn kiểm chứng qua thí nghiệm thực liệu SiSEC, công bố sửdụng rộng rãi cộng đồng xử lý âm Bên cạnh hai đóng góp nêu trên, chúng tơi đề xuất thuật tốn sửdụng NMF tự động trích xuất đoạn âm bất thường từ tín hiệu thu âm đơn kênh kích thước lớn Đóng góp nhằm mục đích hỗ trợ trình phát gán nhãn kiện âm Sau trích xuất kiện âm từ liệu, người gán nhãn cần nghe gán nhãn vị trí xuất đoạn âm bất thường thuật toán phát hiện, thay nghe tồn file âm dài Thí nghiệm thực liệu thu âm mơi trường ngồi trời, cấp cơng ty RION, Nhật Bản Kết thí nghiệm kiểm chứng khả mơhìnhhóa tốt đặc tính phổ NMF Hướng phát triển tương lai: • Kiểm chứng hiệu thuật toán đề xuất hệ thống nhận dạng tiếng nói tự động ASR 23 • Phát triển ý tưởng phân tách phương sai nguồnthành phần sửdụngmơhình DNN, dựa việc tìm hiểu kết nghiên cứu nhóm Nugraha [6] • Phát triển từ ý tưởng sửdụngmơhìnhphổtổng qt GSSM, nghiên cứu xây dựngmơhình hiệp phương sai khơng gian tổng qt cho nguồn hỗn hợp • Kết hợp thuật tốn đề xuất với kỹ thuật khác như: loại nhiễu (dereverberation), source localization, post-filtering, nhằm xây dựng hệ thống phân táchâm đạt hiệu phân tách cao TÀI LIỆU THAM KHẢO [1] Févotte, C., Bertin, N., and Durrieu, J (2009) Non-negative matrix factorization with the itakura-saito divergence With application to music analysis Neural Computation, 21(3):793–830 [2] Lee, D D and Seung, H S (2001) Algorithms for non-negative matrix factorization In Advances in Neural and Information Processing Systems 13, pages 556–562 [3] Lefèvre, A., Bach, F., and Févotte, C (2011) Itakura-Saito non-negative matrix factorization with group sparsity In IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP), pages 2124 [4] Liutkus, A., Stăoter, F.-R., Rafii, Z., Kitamura, D., Rivet, B., Ito, N., Ono, N., and Fontecave, J (2017) The 2016 Signal Separation Evaluation Campaign In Latent Variable Analysis and Signal Separation, volume 10169, pages 323–332 Springer International Publishing, Cham [5] Makino, S., Lee, T.-W., and Sawada, H (2007) Blind Speech Separation Springer [6] Nugraha, A., Liutkus, A., and Vincent, E (2016) Multichannel audio source separation with deep neural networks IEEE/ACM Transactions on Audio, Speech, and Language Processing, 14(9):1652–1664 [7] Ono, N., Koldovský, Z., Miyabe, S., and Ito, N (2013) The 2013 Signal Separation Evaluation Campaign In 2013 IEEE International Workshop on Machine Learning for Signal Processing (MLSP), pages 1–6 [8] Ono, N., Rafii, Z., Kitamura, D., Ito, N., and Liutkus, A (2015) The 2015 Signal Separation Evaluation Campaign In Latent Variable Analysis and Signal Separation, volume 9237, pages 387–395 Springer International Publishing, Cham 24 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN Hien-Thanh Thi Duong, Quoc-Cuong Nguyen, Cong-Phuong Nguyen, Thanh Huan Tran, and Ngoc Q K Duong (2015) Speech enhancement based on nonnegative matrix factorization with mixed group sparsity constraint Proc ACM International Symposium on Information and Communication Technology (SoICT 2015), pp 247-251, Hue, Vietnam ISBN: 978-1-4503-3843-1, DOI:10.1145/2833258.2833276 Hien-Thanh Thi Duong, Quoc-Cuong Nguyen, Cong-Phuong Nguyen, and Ngoc Q K Duong (2016) Single-channel speaker-dependent speech enhancement exploiting generic noise model learned by non-negative matrix factorization Proc IEEE International Conference on Electronics, Information and Communication (ICEIC 2016), pp 268-271, Danang, Vietnam, ISBN 978-1-4673-8016-4, DOI 10.1109/ELINFOCOM.2016.7562952 Thanh Thi Hien Duong, Nobutaka Ono, Yasutaka Nakajima and Toshiya Ohshima (2016) Non-stationary Segment Detection Methods based on Single-basis Non-negative Matrix Factorization for Effective Annotation Proc IEEE Asia-Pacific Signal and Information Processing Association Annual Summit Conference (APSIPA ASC 2016), pp 16, Jeju, Korea, ISBN 978-9-8814-7682-1, DOI 10.1109/APSIPA.2016.7820760 Thanh Thi Hien Duong, Phuong Cong Nguyen, and Cuong Quoc Nguyen (2018) Exploiting Nonnegative Matrix Factorization with Mixed Group Sparsity Constraint to Separate Speech Signal from Singlechannel Mixture with Unknown Ambient Noise EAI Endorsed Transactions on Context-Aware Systems and Applications Vol 18(13), pp: 1-8 ISSN 2409-0026 Dương Thị Hiền Thanh, Nguyễn Công Phương, Nguyễn Quốc Cường (2018) Kết hợp mơhìnhthừasốhóamatrậnkhơngâm với ràng buộc thưa để khai thác mơhìnhphổtổngquát toán táchnguồnâm đơn kênh Tạp chí Nghiên cứu Khoa học Cơng nghệ quân Số 45, tháng năm 2018, trang 83 - 94 ISSN 18591043 Thanh Thi Hien Duong, Ngoc Q K Duong, Phuong Cong Nguyen, and Cuong Quoc Nguyen (2018) Multichannel source separation exploiting NMF-based generic source spectral model in Gaussian mod- eling framework In Latent Variable Analysis and Signal Separation, vol 10891, pp 547-557 Springer International Publishing DOI 10.1007/978-3-319-93764-9_50 (SCOPUS) Thanh Thi Hien Duong, Ngoc Q K Duong, Phuong Cong Nguyen, and Cuong Quoc Nguyen (2019) Gaussian modeling-based multichannel audio source separation exploiting generic source spectral model IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol 27(1), pp 32-43 ISSN 2329-9304, DOI 10.1109/TASLP.2018.28 69692 (ISI - Q1) ... MA TRẬN KHƠNG ÂM 2.1 2.1.1 Tổng quan thừa số hóa ma trận không âm (Nonnegative Matrix Factorization - NMF) NMF gì? Thừa số hóa ma trận khơng âm (NMF) kỹ thuật giảm số chiều ma trận sử dụng phổ. .. 1: TỔNG QUAN VỀ TÁCH NGUỒN ÂM THANH VÀ NHỮNG NGHIÊN CỨU LIÊN QUAN 1.1 1.1.1 Tổng quan tách nguồn âm Mơ hình chung hệ thống tách nguồn âm Tách nguồn âm kỹ thuật khôi phục âm thành phần (gọi nguồn. .. 3.2 Học mơ hình phổ tổng qt GSSM Hình 3.2: Ma trận phổ tổng quát GSSM Gọi slj (t) mẫu huấn luyện thứ l nguồn cần tách sj (t) Ở bước huấn luyện, NMF mã hóa đặc trưng phổ mẫu slj (t) ma trận Wjl