Bài viết tập trung giải quyết bài toán phân tách những âm thanh mong muốn từ tín hiệu thu âm đơn kênh gồm nhiều âm thanh khác nhau bị trộn lẫn trong điều kiện không có dữ liệu huấn luyện cho các âm thanh cần phân tách. Đây là vấn đề còn nhiều khó khăn thách thức trong lĩnh vực tách nguồn âm thanh (audio/acoustic source separation).
Nghiên cứu khoa học cơng nghệ KẾT HỢP MƠ HÌNH THỪA SỐ HĨA MA TRẬN KHƠNG ÂM VỚI CÁC NHĨM RÀNG BUỘC THƯA ĐỂ KHAI THÁC MƠ HÌNH PHỔ TỔNG QUÁT TRONG BÀI TOÁN TÁCH NGUỒN ÂM THANH ĐƠN KÊNH Dương Thị Hiền Thanh1,2, Nguyễn Công Phương1,3, Nguyễn Quốc Cường3* Tóm tắt: Bài báo tập trung giải tốn phân tách âm mong muốn từ tín hiệu thu âm đơn kênh gồm nhiều âm khác bị trộn lẫn điều kiện khơng có liệu huấn luyện cho âm cần phân tách Đây vấn đề nhiều khó khăn thách thức lĩnh vực tách nguồn âm (audio/acoustic source separation) Tiếp cận theo hướng sử dụng mơ hình thừa số hóa ma trận không âm (Nonnegative Matrix Factorization - NMF) để xử lý thơng tin phổ tín hiệu, báo đề xuất giải pháp xây dựng khai thác mô hình phổ tổng qt cho tín hiệu nguồn cần tách Đặc biệt, đề xuất kết hợp mô hình NMF với nhóm ràng buộc thưa (group sparsity constraint) để hướng dẫn q trình phân tách Thí nghiệm thực cho hai trường hợp: phân tách tiếng nói âm nhiễu mơi trường từ tín hiệu tiếng nói chứa nhiễu, phân tách giọng hát âm loại nhạc cụ hát cho thấy hiệu thuật tốn đề xuất Từ khóa: Tách nguồn âm thanh, NMF, Ràng buộc thưa, Mơ hình phổ tổng quát MỞ ĐẦU Trong lĩnh vực xử lý tín hiệu, tách nguồn âm nhiệm vụ khơi phục âm mong muốn từ tín hiệu thu âm gồm nhiều âm khác bị trộn lẫn [1, 2] Một ví dụ điển hình tách nguồn âm “bữa tiệc cocktail”, nơi có nhiều người nói chuyện, tiếng nhạc, âm khác người nghe cố gắng theo dõi thảo luận Trong tình đó, não người với khả thính giác bình thường dễ dàng định vị phân tách âm mong muốn để nghe, hiểu xử lý thông tin Nhưng học máy (machine learning) xử lý tín hiệu số vấn đề vơ khó khăn Các đánh giá khoa học uy tín năm gần [2–5] cho thấy kỹ thuật tách nguồn âm tập trung nghiên cứu giới có vai trò quan trọng nhiều ứng dụng thực tế như: phân tích xử lí âm an ninh quốc phòng, chăm sóc y tế, thiết bị hỗ trợ người khiếm thính; hỗ trợ giao tiếp qua mạng viễn thơng (telephone, mobile phone), internet hội nghị truyền hình (video/audio conferencing); hỗ trợ hệ thống nhận dạng tiếng nói tự động (Automatic Speech Recognition - ASR), Có nhiều lớp thuật toán tách nguồn âm nghiên cứu, hầu hết phương pháp biến đổi tín hiệu âm từ miền thời gian (time domain) sang miền thời gian-tần số (time-frequency domain) qua phép biến đổi Fourier (Short Time Fourier Transform - STFT) Sau đó, thơng tin phổ (spatial cues) và/hoặc thông tin khơng gian (spatial cues) sử dụng cho q trình xử lí phân tách Tín hiệu sau phân tách biến đổi ngược lại miền thời gian qua phép biến đổi Fourier ngược (Inverse Short Time Fourier Transform - ISTFT) Đối với tốn phân tách tín hiệu đơn kênh, khai thác thông tin khơng gian q trình xử lý, số nghiên cứu công bố gần phát triển giải thuật học có giám sát (supervised) hay giải thuật học sâu (deep Tạp chí Nghiên cứu KH&CN quân sự, Số 54, 04 - 2018 83 Kỹ thuật điều khiển & Điện tử learning) [6, 7], sử dụng liệu huấn luyện để học đặc tính phổ tín hiệu, sau dùng kết bước học để hướng dẫn phân tách tín hiệu mong muốn Trong trường hợp khơng có liệu huấn luyện liệu huấn luyện không đầy đủ, công bố gần Sun Mysore [6] hay nhóm El Badawy [8, 9] đề xuất giải pháp xây dựng mô hình phổ tổng qt cho tín hiệu nguồn cần tách, sau sử dụng mơ hình thừa số hóa ma trận không âm (Nonnegative Matrix Factorization – NMF) [10] kết hợp với nhóm ràng buộc thưa để ước lượng tín hiệu cần phân tách Phát triển từ kết nghiên cứu công bố gần [11, 12], báo đề xuất thuật toán tách nguồn âm đơn kênh điều kiện khơng có liệu huấn luyện Trong đó, thu thập sử dụng số mẫu âm loại với liệu cần phân tách để huấn luyện mơ hình phổ tổng qt cho tín hiệu, đồng thời sử dụng kết hợp mơ hình NMF với hai loại ràng buộc thưa qúa trình phân tách Chúng tơi thực hai thí nghiệm hai trường hợp điển hình ứng dụng thực tế để đánh giá hiệu thuật toán đề xuất, đồng thời khảo sát hội tụ thuật toán ảnh hưởng loại ràng buộc thưa chất lượng tín hiệu tách Với ý tưởng đó, chúng tơi trình bày thuật tốn tách nguồn âm sử dụng mơ hình NMF cơng bố phần Sau đó, mơ tả thuật toán tách nguồn âm đề xuất phần Phần trình bầy thí nghiệm kết đánh giá, so sánh, cuối phần kết luận THUẬT TOÁN TÁCH NGUỒN ÂM THANH ĐƠN KÊNH SỬ DỤNG MƠ HÌNH NMF Mục tiêu tốn phân tách tín hiệu âm thành phần từ tín hiệu thu âm đơn kênh bị trộn lẫn nhiều âm khác (gọi “tín hiệu trộn”) Gọi ∈ ℂ × ∈ ℂ × ( = 1, … , ) ma trận phức biểu diễn tín hiệu trộn tín hiệu thành phần sau phép biến đổi STFT số bin tần số (frequency bins), số khung thời gian (time frames), số tín hiệu thành phần có tín hiệu trộn Tín hiệu trộn kết hợp âm thành phần theo công thức (1) = , (1) Gọi = | | ma trận phổ tín hiệu trộn, với | | ma trận có phần tử [ ] , mơ hình NMF phân tách ma trận khơng âm ∈ ℝ × thành hai ma trận khơng âm theo cơng thức: (2) ≈ ∗ , Trong đó: ∗ phép nhân ma trận thơng thường, ∈ ℝ × ma trận đặc trưng phổ (spectral basis matrix) có véc tơ cột đặc trưng phổ xuất thường xuyên , ∈ ℝ × ma trận kích hoạt (activation matrix) có véc tơ hàng thời gian xuất mẫu phổ , số đặc trưng tổng hợp Trong ứng dụng, thường chọn cho đủ nhỏ đảm bảo trích chọn đặc trưng phổ hữu ích từ [13] 84 D T H Thanh, N C Phương, N Q Cường, “Kết hợp mơ hình thừa số hóa … đơn kênh.” Nghiên cứu khoa học cơng nghệ Để ước lượng ma trận thành phần, khởi tạo với giá trị không âm ngẫu nhiên cập nhật trình lặp cho hàm giá (3) thể sai khác ∗ giảm dần đến điểm hội tụ Trong bước lặp, cập nhật theo quy tắc cập nhật MU-rules [14] mô tả công thức (4) (5): ( ‖ ∗ )=∑ ∑ ∗ , (3) ( ) (( ∗ ) ⨀ ) (4) ← ⨀ , ( ( ∗ ) ) ( ∗ ).( ) ⨀ (5) ← ⨀ , ( ∗ ).( ) Trong đó, số tần số số khung thời gian, ( ‖ )= − − độ đo Itakura-Saito-divergence sử dụng phổ biến với liệu âm [14], ký hiệu ma trận chuyển vị ma trận , ( ) lũy thừa n lần phẩn tử , ⊙ phép toán nhân phần tử hai ma trận (element-wise Hadamard), phép chia công thức (4) (5) phép chia theo phần tử ma trận Gọi , ,… ma trận đặc trưng phổ tín hiệu thành phần , , …, Chúng ước lượng từ tập liệu huấn luyện bước học, sau ghép lại thành ma trận đặc trưng phổ theo công thức (6) =[ , ,…, ] (6) Ở bước tách nguồn, NMF cố định ma trận ước lượng công thức cập nhật (5), gồm thành phần , ,… ma trận kích hoạt tương ứng tín hiệu thành phần công thức (7) =[ , ,…, ] (7) Sau ước lượng ma trận , tín hiệu thành phần xác định cơng thức Wiener filtering (8) biến đổi miền thời gian qua phép biến đổi Fourier ngược ∗ (8) = ⨀ , = 1, , ∗ Thuật tốn tách nguồn âm áp dụng mơ hình NMF nêu cho kết tương đối tốt có liệu huấn luyện xác cho tín hiệu cần tách Tuy nhiên, khơng có liệu huấn luyện chất lượng tín hiệu tách thấp THUẬT TOÁN ĐỀ XUẤT Trong tình khơng có liệu huấn luyện mà báo đề cập tới, nhận định dễ dàng thu thập số file âm có nhiều đặc tính phổ giống tín hiệu nguồn cần phân tách Ví dụ, để tách tiếng nói âm nhiễu mơi trường từ tín hiệu thu âm, chúng tơi tìm kiếm sử dụng số file tiếng nói (gồm giọng nam giọng nữ) số file âm nhiễu môi trường như: tiếng ồn đường phố, tiếng gió, tiếng nước chảy,… để làm tập mẫu huấn luyện Từ đó, chúng tơi đề xuất thuật toán tách nguồn âm gồm hai pha huấn luyện tách nguồn mơ tả hình Cụ thể hơn, phần 3.1 mô tả cách xây dựng mơ hình phổ tổng qt (Generic Spectral Source Model - GSSM) cho tín hiệu cần Tạp chí Nghiên cứu KH&CN quân sự, Số 54, 04 - 2018 85 K Kỹỹ thuật điều khiển & Điện tử tách pha hu huấn ấn luyện Phần 3.2 đđềề xuất công thức kết hợp hai loại lo ại ràng bu buộc ộc luyện Phần thưa đđểể ước ớc lượng l ợng đặc tr trưng ưng ph phổ ổ tín hiệu dựa tr ên mơ hình GSSM pha tách ngu nguồn ồn Hình Sơ đồ đồ thu thuật ật toán tách tách nguồn ngu n âm đđề xuấ xuất 3.1 Xây d dựng ng mơ hình ph phổ tổng t ng quát cho ngu nguồn n cầ cần n tách G Gọii số số mẫẫuu hu huấấn n luy luyện n thu th thập p đư c cho tín hiệ hiệuu nguồn ngu n , ma trậ trậnn đđặcc trưng phổ ph củ ủaa ttừng ng m mẫu u đư c ước c lư lượng ng b ng cách tố tốii ưu hóa hàm theo cơng ( ) ( ) ( ) thức th ức ((9), ), với với = ma trậ trậnn ph phổ ổ, trưng phổ ph ma trậ trận n kích ho hoạạt củ ủaa m mẫẫuu th thứ , ≤ ≤ ( ) ( ) ( min( ) ∗ ( ) ( ) lầần n lượ lượtt ma trậ trậnn đđặcc ) , , Sau đó, m maa tr trậnn ph phổ tổng ng quát củủaa tín hiệu hi u thành phần ph n theo công th thứ ứcc (10 (10) ( ) ( ) = , …, , (9)) đư đượ ợc xác định đ nh từ ma tr trận n = (1 (10)) Mơ hình phhổ ttổng ng qt cho tín hi hiệệu nguồn ngu n cầ cầnn tách đượ ghép ttừ thành phần ph n , =1 theo công th thứcc (11) (1 ) Ở pha tách nguồn ngu n, thuậ thu ậtt toán ssẽẽ cố ố địịnh nh cập p nh nhậtt ma tr n kích ho hoạtt ttừng ừng bước b ớc lặp theo công th ức (5) để trận thức cực ực tiểu hhóa óa hàm giá (3) Ma trận tr n ũng gồ ồm m thành ph phần n ma tr trận n kích ho hoạạtt c a tín hi hiệuu theo cơng th thứ ứcc (1 (12 2) = [ ,…, ], (1 (11)) = [ ,…, ] (1 (12)) 3.22 K Kết ết hợp hai lo loạii ràng buộc bu c thưa mô hình NMF bước bư c tách ngu nguồồn Mơ hình ph phổổ tổổng ng qt sẽẽ có kích th thư ước ớc lớn số mẫu huấn ấn luyện tăng Vì ác đđặc ặc trưng trưng ph phổổ mơ hình GSSM được trích chọn từ nhiều mẫu huấn luyện khác nên đđặc ặc tr ưng của tín hiệu ccần ần tách thường thường chiếm c ếm ột phần nh nhỏ ỏ trưng 86 D T H Thanh, N C Phương, N Q Cư Cường ờng,, “Kết “Kết hợp mơ hình th thừa ừa số hóa … đđơn ơn kênh kênh.”” Nghiên cứu khoa học công nghệ GSSM Hơn nữa, đặc trưng quan trọng lại nằm rải rác mẫu khác không tập trung vài mẫu cụ thể [13, 15] Để tìm tập chứa đặc trưng phổ tín hiệu cần tách, số nghiên cứu trước đề xuất kết hợp nhóm ràng buộc thưa (sparsity constraint) trình ước lượng ma trận với hàm sau: ∗ + λΩ( ) (13) Ω( ) thể ảnh hưởng ràng buộc thưa, gọi hàm penalty [11] với số dương xác định mức độ ảnh hưởng Có hai hàm penalty công bố block sparsity [6] component sparsity [8, 9] theo công thức (14) (15) với số dương đủ nhỏ Ω Ω = = log ( + log ( + ‖ ( ) ), ‖ ) (14) (15) Trong đó, ( ) ma trận kích hoạt block thứ , block tương ứng với mẫu huấn luyện = ∑ tổng số mẫu huấn luyện dùng, ‖ ‖ l1-norm ma trận hay véc tơ tương ứng Hàm Ω kích hoạt block ma trận chứa đặc trưng phổ tương tự với tín hiệu nguồn cần tách, block lại hội tụ giá trị [6] Hàm Ω với véc tơ thứ ma trận kích hoạt véc tơ chứa đặc trưng phổ giống đặc trưng phổ tín hiệu nguồn cần tách [8] Nhận thấy block sparsity tác động lên “block” GSSM, tức loại bỏ giữ lại toàn đặc trưng phổ mẫu huấn luyện Như vậy, ràng buộc thưa bỏ qua mẫu có đặc tính tương đồng với tín hiệu cần tách, giữ lại tồn mẫu tùy theo độ lớn nhỏ tham số λ công thức (13) Trong đó, component sparsity lại xem xét véc tơ mơ hình GSSM nên có ưu block sparsity việc trích chọn đặc trưng giá trị từ mẫu tương đồng với nguồn cần tách Tuy nhiên, điều làm cho việc loại bỏ thành phần không tương đồng với đặc trưng nguồn cần tách diễn chậm, dẫn đến tốc độ hội tụ thuật tốn chậm có kích thước lớn Từ phân tích trên, chúng tơi đề xuất sử dụng kết hợp hai loại ràng buộc thưa để loại bỏ nhanh block khơng giá trị, đồng thời đảm bảo giữ lại đặc trưng quan trọng mơ hình GSSM theo công thức sau [11, 12]: Ω = ∑ log ( + ( ) ) + (1 − ) ∑ log ( + (16) 1), Với trọng số thể đóng góp loại ràng buộc thưa (0 ≤ ≤ 1) Cơng thức (16) tổng quát hóa (14) (15): (16) hoạt động block sparsity = component sparsity = Với < < 1, trình cập nhật, số block hội tụ ảnh hưởng thành phần block sparsity, với block lại, số véc tơ hội tụ ảnh hưởng thành phần component sparsity Như vậy, sau trình cập nhật, Tạp chí Nghiên cứu KH&CN quân sự, Số 54, 04 - 2018 87 Kỹ thuật điều khiển & Điện tử thành phần khác lại kích hoạt đặc trưng phổ phù hợp với tín hiệu nguồn cần tách Algorithm NMF – Proposed Require: , , , Ensure: Khởi tạo với giá trị không âm ngẫu nhiên = ∗ Repeat //Tính tốn thành phần block sparsity For = 1, … , ( )← ( ) End for = ( ), … , ( ) //Tính toán thành phần component sparsity For = 1, … , ← ‖ ‖ End for = [ ,…, //Cập nhật ← ⨀( ] ∗( ∗ ( ⨀ ) ( ) ) ) //Cập nhật ← ∗ Until Thỏa mãn điều kiện hội tụ Thuật toán đề xuất mơ tả chi tiết Algorithm 1, đó, trận có kích thước với ( ) , véc tơ có kích thước với với ( ) ma THÍ NGHIỆM Để đánh giá hiệu thuật tốn đề xuất, chúng tơi thực hai thí nghiệm sau: Thí nghiệm 1: Phân tách tiếng nói (speech) âm nhiễu mơi trường (noise) từ file thu âm tiếng nói chứa nhiễu Thí nghiệm 2: Phân tách giọng hát (vocals) âm nhạc cụ (music) từ file hát thu âm 4.1 Dữ liệu thí nghiệm cách thiết lập tham số Các thí nghiệm thực với liệu chuẩn hóa cơng bố website uy tín thuộc lĩnh vực nghiên cứu Ở thí nghiệm, liệu chia thành hai tập riêng biệt cho hai pha huấn luyện thử nghiệm sau: Thí nghiệm 88 D T H Thanh, N C Phương, N Q Cường, “Kết hợp mơ hình thừa số hóa … đơn kênh.” Nghiên cứu khoa học cơng nghệ Tập mẫu huấn luyện cho tín hiệu speech gồm file tiếng nói khơng chứa nhiễu có kích thước giây, giọng nam giọng nữ1 Tập mẫu huấn luyện noise gồm file có kích thước từ 10 đến 15 giây, âm loại nhiễu môi trường2: kitchen sound, bird song, metro Chúng dùng để xây dựng mơ hình phổ tổng quát cho tín hiệu speech noise Tập liệu test gồm 12 file đơn kênh tín hiệu trộn speech noise với tỷ lệ tín hiệu nhiễu (Signal to Noise Ratio) SNR = dB, file có kích thước từ đến 10 giây Tập test chứa nhiều loại nhiễu khác khác mẫu tập huấn luyện Một số tín hiệu trộn có kết hợp hai loại nhiễu như: traffic + wind sound, ocean waves + wind sound, cafeteria + music, forest birds + car, Thí nghiệm Tập mẫu huấn luyện vocals gồm file với giọng nam giọng nữ Tập mẫu huấn luyện cho music gồm file: file âm bass, file âm drums file âm nhạc cụ khác Kích thước file tập huấn luyện từ 10 đến 15 giây3 Tập liệu test gồm file trích đoạn hát có độ dài từ 14 đến 25 giây mô tả bảng 14 Bảng Dữ liệu test thí nghiệm TT Tên hát Bearlin - Roads Tamy - Que pena Tanto faz Another dreamer - The ones we love Fort Minor - Remember the name Ultimate nz tour Độ dài 14 giây 15 giây 25 giây 25 giây 19 giây Các tham số thuật toán thiết lập sau: tần số lấy mẫu file âm 16000 Hz, kích thước cửa sổ phép biến đổi Fourier 1024 Số thành phần đặc trưng phổ speech noise 32 16, bass drums 15, loại nhạc cụ khác 25 vocals 32 Số bước lặp MU 50 cho pha huấn luyện, thử nghiệm với giá trị từ đến 100 bước tách nguồn để khảo sát hội tụ thuật toán Hai tham số thử nghiệm với tập giá trị khác để xem xét tính ổn định thuật toán: = {0, 1, 10, 25, 50, 100, 200, 500}, = {0, 0.2, 0.4, 0.6, 0.8, 1} 4.2 Phương pháp đánh giá kết Speech files are from the International Signal Separation and Evaluation Campaign (SiSEC): http://sisec.wiki.irisa.fr/ Noise files are from the Diverse Environments Multichannel Acoustic Noise Database (DEMAND): http://parole.loria.fr/DEMAND Training data is from SiSEC: https://sisec.inria.fr/sisec-2016/2016-professionally-producedmusic-recordings Test data is from SiSEC: https://sisec.wiki.irisa.fr/tiki-index165d.html Tạp chí Nghiên cứu KH&CN quân sự, Số 54, 04 - 2018 89 Kỹ thuật điều khiển & Điện tử Trên tập liệu thử nghiệm điều kiện thí nghiệm, chúng tơi so sánh kết thuật toán NMF kết thuật tốn đề xuất kết hợp mơ hình NMF với nhóm ràng buộc thưa khác sau: NMF non-sparsity: Thuật tốn NMF mơ tả phần 2, liệu huấn luyện cho tín hiệu file ghép từ file tập mẫu huấn luyện tương ứng với tín hiệu (theo mô tả phần 4.1) NMF - B: Thuật toán đề xuất, sử dụng kết hợp NMF với ràng buộc thưa block sparsity theo công thức (14) [6] NMF - C: Thuật toán đề xuất, sử dụng kết hợp NMF với ràng buộc thưa component sparsity theo công thức (15) [8, 9] Proposed NMF: Thuật toán đề xuất, sử dụng kết hợp NMF với hai loại ràng buộc thưa block sparsity component sparsity theo công thức (16) Mỗi tín hiệu sau tách tính tốn độ đo SDR (Source to Distortion Ratio), SIR (Source to Interference Ratio), SAR (Source to Artifacts Ratio), đơn vị đo dB Các độ đo lớn chất lượng tín hiệu tách tốt Để tính tốn độ đo đó, chúng tơi dùng cơng cụ cung cấp sử dụng phổ biến cộng đồng nghiên cứu xử lý âm BSS-EVAL Tools [16] 4.3 Kết thí nghiệm bình luận Bảng Độ đo trung bình tập tín hiệu sau tách Thí nghiệm Thí nghiệm Thuật tốn 90 NMF nonsparsity NMF - B [6] ( = 25, = 1) NMF - C [8, 9] ( = 50, = 0) Proposed NMF ( = 50, = 0.2) NMF nonsparsity NMF - B [6] ( = 50, = 1) NMF - C [8, 9] ( = 25, = 0) Proposed NMF ( = 50, = 0.4) Speech/Vocals SIR SDR SAR (dB) (dB) (dB) Noise/Music SIR SDR SAR (dB) (dB) (dB) 2.7 6.9 11.7 3.6 14.3 5.2 7.4 10.2 16.4 6.9 19.8 8.5 7.4 10.9 16.2 7.6 16.3 9.3 7.7 10.8 17.8 7.8 18.7 9.4 1.3 3.7 7.1 3.8 9.5 11.2 2.5 4.9 8.1 6.2 7.7 13.3 2.7 5.6 7.3 6.2 7.7 13.5 3.2 6.2 7.9 6.4 7.9 14.2 D T H Thanh, N C Phương, N Q Cường, “Kết hợp mơ hình thừa số hóa … đơn kênh.” Nghiên ccứu ứu khoa học cơng nghệ Hình Hình Sự ự hội tụ thuật tốn với tín hiệu hiệu:: (a) – Speech, (b) – Noise Noise, (c) ( – Vocals, ((d d) - Music Music Hình 3 Ả Ảnh nh hư hưởng ng c a , α đđối ối với ới kết kết phân tách tách:: (a) – Speech, (b) – Noise, Noise, (c) – Vocals, (d) - Music Music Tạp ạp chí Nghi Nghiên ên cứu cứu KH&CN quân uân sự, sự, Số 54 54, 044 - 2018 2018 91 Kỹ thuật điều khiển & Điện tử Bảng độ đo trung bình tín hiệu sau tách từ tập liệu test hai thí nghiệm, tương ứng với thiết lập tham số α tối ưu cho thuật toán Sự hội tụ thuật tốn đề xuất theo tín hiệu thể hình Hình cho thấy ảnh hưởng tham số α kết phân tách theo độ đo SDR Với hai thí nghiệm, thuật tốn đề xuất “Proposed NMF” sử dụng kết hợp NMF với hai loại ràng buộc thưa block sparsity component sparsity cho kết tốt ba thuật tốn lại hầu hết độ đo, đặc biệt tốt độ đo quan trọng SDR Điều khẳng định hiệu việc sử dụng kết hợp hai loại ràng buộc thưa mà đề xuất so với cơng bố trước Ngồi ra, chênh lệch kết thuật toán “NMF non-sparsity” ba thuật toán lại cho thấy trường hợp liệu huấn luyện khơng xác việc sử dụng kết hợp nhóm loại buộc thưa mơ hình NMF giúp nâng cao đáng kể chất lượng nguồn âm tách Khảo sát kỹ hội tụ ổn định thuật toán đề xuất, hình cho thấy thuật tốn hội tụ nhanh sau khoảng 20 bước lặp hội tụ đồng loại tín hiệu tách khác Tính ổn định thuật tốn thể hình giá trị tham số α thay đổi, quan sát thấy thuật tốn đạt kết tốt ổn định với giá trị 10 ≤ ≤ 50 ≤ ≤ 0.4 Ngoài ra, thuật toán ổn định với giá trị α nhỏ KẾT LUẬN Trong báo, trình bầy thuật tốn tách nguồn âm có hướng dẫn sử dụng mơ hình NMF Từ đó, để giải toán tách nguồn âm đơn kênh khơng có liệu huấn luyện, chúng tơi đề xuất giải pháp xây dựng mơ hình phổ tổng quát cho tín hiệu cần tách số file âm loại thu thập Trong q trình phân tách, chúng tơi đề xuất cơng thức kết hợp mơ hình NMF với hai loại ràng buộc thưa để nâng cao hiệu ước lượng tín hiệu cần tách dựa mơ hình phổ tổng qt xây dựng Kết hai thí nghiệm thực với hai loại liệu khác cho thấy hiệu thuật tốn đề xuất Ngồi ra, thí nghiệm cho thấy tốc độ hội tụ thuật toán tốt miền giá trị tham số để đảm bảo ổn định thuật tốn Những đánh giá hữu ích cho việc thiết lập tham số sử dụng thuật tốn ứng dụng thực tế Chúng tơi mong muốn tiếp tục phát triển thuật toán cho toán tách nguồn âm đa kênh theo hướng kết hợp mơ hình NMF với mơ hình xử lý thơng tin không gian (spatial model) Đồng thời, dự định tiến hành thử nghiệm hiệu thuật tốn hệ thống nhận dạng tiếng nói tự động (Automatic Speech Recognition - ASR) thời gian gần TÀI LIỆU THAM KHẢO [1] "Source Separation and Speech Dereverberation", in Acoustic MIMO Signal Processing, Boston, MA: Springer US, 2006, pp 319–351 [2] S Makino, T.-W Lee, and H Sawada, "Blind speech separation" Dordrecht, the Netherlands: Springer, 2007 92 D T H Thanh, N C Phương, N Q Cường, “Kết hợp mơ hình thừa số hóa … đơn kênh.” Nghiên cứu khoa học công nghệ [3] E Vincent et al., "The signal separation evaluation campaign (2007–2010): Achievements and remaining challenges", Signal Process., vol 92, no 8, pp 1928–1936, Aug 2012 [4] E Vincent, J Barker, S Watanabe, J Le Roux, F Nesta, and M Matassoni, "The second 'chime' speech separation and recognition challenge: Datasets, tasks and baselines", in IEEE Int Conf on Acoustics, Speech and Signal Processing (ICASSP), 2013, pp 126–130 [5] K Kinoshita et al., "The reverb challenge: A common evaluation framework for dereverberation and recognition of reverberant speech", in IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), 2013, pp 1–4 [6] D L Sun and G J Mysore, "Universal speech models for speaker independent single channel source separation", in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2013, pp 141–145 [7] L Chen, X Ma, and S Ding, "Single Channel Speech Separation Using Deep Neural Network", in Advances in Neural Networks - ISNN 2017, vol 10261, F Cong, A Leung, and Q Wei, Eds Cham: Springer International Publishing, 2017, pp 285–292 [8] D El Badawy, N Q K Duong, and A Ozerov, "On-the-fly audio source separation", in IEEE International Workshop on Machine Learning for Signal Processing (MLSP 2014), 2014, pp 1–6 [9] D E Badawy, N Q K Duong, and A Ozerov, "On-the-Fly Audio Source Separation—A Novel User-Friendly Framework", IEEEACM Trans Audio Speech Lang Process., vol 25, no 2, pp 261–272, Feb 2017 [10] D D Lee and H S Seung, "Algorithms for non-negative matrix factorization", in Advances in neural information processing systems, 2001, pp 556–562 [11] H.-T T Duong, Q.-C Nguyen, C.-P Nguyen, T.-H Tran, and N Q K Duong, "Speech enhancement based on nonnegative matrix factorization with mixed group sparsity constraint", in Proceedings of the Sixth International Symposium on Information and Communication Technology, 2015, pp 247–251 [12] H.-T T Duong, Q.-C Nguyen, C.-P Nguyen, and N Q K Duong, "Singlechannel speaker-dependent speech enhancement exploiting generic noise model learned by non-negative matrix factorization", in International Conference on Electronics, Information, and Communications (ICEIC), 2016, pp 1–4 [13] A Lefevre, F Bach, and C Févotte, "Itakura-Saito nonnegative matrix factorization with group sparsity", in Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on, 2011, pp 21–24 [14] C Févotte, N Bertin, and J.-L Durrieu, "Nonnegative Matrix Factorization with the Itakura-Saito Divergence: With Application to Music Analysis", Neural Comput., vol 21, no 3, pp 793–830, Mar 2009 Tạp chí Nghiên cứu KH&CN quân sự, Số 54, 04 - 2018 93 Kỹ thuật điều khiển & Điện tử [15] T Virtanen, "Monaural Sound Source Separation by Nonnegative Matrix Factorization With Temporal Continuity and Sparseness Criteria", IEEE Trans Audio Speech Lang Process., vol 15, no 3, pp 1066–1074, Mar 2007 [16] E Vincent, R Gribonval, and C Fevotte, "Performance measurement in blind audio source separation", IEEE Trans Audio Speech Lang Process., vol 14, no 4, pp 1462–1469, Jul 2006 ABSTRACT COMBINATION OF NONNEGATIVE MATRIX FACTORIZATION AND MIXED GROUP SPARSITY CONSTRAINT TO EXPLOIT GENERIC SOURCE SPECTRAL MODEL IN SINGLE-CHANNEL AUDIO SOURCE SEPARATION ALGORITHM This paper considers the audio source separation problem given a single-channel mixture in the absence of exact training data Based on nonnegative matrix factorization framework, a generic spectral source model for each source from using several examples of them in training process is proposed to learn In source separation process, two existing group sparsity-inducing penalties in the optimization function and derive the corresponding algorithm for parameter estimation based on multiplicative update (MU) rule Experiment in two cases: speech and environmental noise separation, and vocal and music separation confirms the effectiveness of our approach Keywords: Audio source separation, Nonnegative matrix factorizarion (NMF), Sparsity constraint, Universal model Nhận ngày 26 tháng 12 năm 2017 Hoàn thiện ngày 16 tháng 02 năm 2018 Chấp nhận đăng ngày 10 tháng năm 2018 Địa chỉ: Viện nghiên cứu quốc tế MICA, Trường Đại học Bách khoa Hà Nội, Việt Nam; Khoa Công nghệ thông tin, Trường Đại học Mỏ-Địa chất, Hà Nội, Việt Nam; Bộ môn Kỹ thuật đo Tin học công nghiệp, Trường Đại học Bách khoa Hà Nội * Email: cuong.nguyenquoc@hust.edu.vn 94 D T H Thanh, N C Phương, N Q Cường, “Kết hợp mơ hình thừa số hóa … đơn kênh.” ... trộn kết hợp âm thành phần theo công thức (1) = , (1) Gọi = | | ma trận phổ tín hiệu trộn, với | | ma trận có phần tử [ ] , mơ hình NMF phân tách ma trận khơng âm ∈ ℝ × thành hai ma trận không âm. .. luyện Trong đó, chúng tơi thu thập sử dụng số mẫu âm loại với liệu cần phân tách để huấn luyện mơ hình phổ tổng quát cho tín hiệu, đồng thời sử dụng kết hợp mơ hình NMF với hai loại ràng buộc thưa. .. thập Trong q trình phân tách, chúng tơi đề xuất cơng thức kết hợp mơ hình NMF với hai loại ràng buộc thưa để nâng cao hiệu ước lượng tín hiệu cần tách dựa mơ hình phổ tổng quát xây dựng Kết hai