Bài viết đề xuất một mô hình phân tách giọng hát từ nguồn hỗn hợp âm nhạc bằng mạng nơron tích chập - CNN (Convolutional Neural Network). Phép biến đổi Fourier thời gian ngắn - STFT (Short time Fourier Transform) được áp dụng để trích các đặc trưng cơ bản của tín hiệu giọng hát. Bộ dữ liệu DSD100 (Demixing Secrets Dataset 100) gồm các hỗn hợp âm nhạc của giọng hát và nhạc đệm từ các nhạc cụ như trống, bass, .v.v. được sử dụng để đánh giá hiệu suất của mô hình mạng CNN.
Trang 1Mô Hình Mạng Nơron Tích Chập Phân Tách Giọng Hát Từ Hỗn Hợp Âm Nhạc
A Convolutional Neural Network Model to Separate Singing Voice
from Music Nguyễn Tấn Phú 1, Nguyễn Nhị Gia Vinh2, Lê Thị Diễm3, Lê Minh Lý4
1 Khoa Công Nghệ Thông Tin, Trường Đại Học Kỹ Thuật – Công Nghệ Cần Thơ
ntanphu@ctuet.edu.vn
2,3,4Khoa Công Nghệ Thông Tin, Trường Đại Học Cần Thơ
{nngvinh, ltdiem, leminhly}@ctu.edu.vn
Tóm tắt Nghiên cứu này đề xuất một mô hình phân tách giọng hát từ nguồn hỗn hợp âm nhạc bằng mạng nơron tích chập - CNN (Convolutional Neural Network) Phép biến đổi Fourier thời gian ngắn - STFT (Short time Fourier Transform) được áp dụng để trích các đặc trưng cơ bản của tín hiệu giọng hát Bộ dữ liệu DSD100 (Demixing Secrets Dataset 100) gồm các hỗn hợp âm nhạc của giọng hát và nhạc đệm từ các nhạc cụ như trống, bass, v.v được sử dụng để đánh giá hiệu suất của mô hình mạng CNN Kết quả thực nghiệm cho thấy mô hình mạng CNN đạt độ chính xác là 97.24%
Từ khóa Mạng nơron tích chập (Convolutional Neural Network), Phép biến đổi Fourier thời gian ngắn (Short time Fourier Transform), Đặc trưng âm thanh (audio feature), Demixing Secrets Dataset
100 (DSD100)
Abstract— This study proposes a model to separate singing voice from music by using convolutional neural network (CNN) Short time Fourier Transform (STFT) is applied to extract basic audio features
of singing voice Music database named Demixing Secrets Dataset 100 (DSD100) including singing voice, music background is used to estimate convolutional neural network performance Experiental results in this study proves that proposed convolutional neural nework gives precistion of 97.24%
Keywords Convolutional Neural Network, Short time Fourier Transform, audio feature, Demixing Secrets Dataset 100
1 Giới thiệu
Trong những năm gần đây, sự phát triển của khoa học công nghệ cùng với sự bùng nổ của mạng xã hội trong nhiều thập kỷ qua, internet đã trở thành nguồn thu thập thông tin đa phương tiện như sách, báo, hình ảnh, video, âm nhạc,…trong đó âm nhạc đã không ngừng phát triển, hoàn thiện và sức ảnh hưởng của nó ngày càng lớn Bên cạnh đó, nhu cầu về vấn đề tách lời giọng hát khỏi nhạc trong các bài hát là chủ đề được quan tâm đối với những nhà biên tập âm thanh Tuy nhiên, việc lựa chọn mô hình phù hợp để phân tách được giọng hát từ bài hát là một bài toán phức tạp
Mạng nơron tích chập (CNN) được ứng dụng thành công trong việc xử lý hình ảnh cho các tác vụ như siêu phân giải hình ảnh [11] và phân đoạn ngữ nghĩa của hình ảnh theo đề xuất của [12] Trong trường xử
lý hình ảnh, CNN lấy đầu vào là một vectơ cường độ pixel hai chiều trên kích thước không gian và khai thác mối tương quan không gian cục bộ giữa các nơron đầu vào để trích chọn các đặc điểm cục bộ Hiện nay, nhiều nghiên cứu đã đưa ra các ý tưởng phát triển các hệ thống phân loại nhạc tự động, nhận dạng hợp
âm, phân tách giọng hát từ các bản thu âm đơn âm Nghiên cứu [2] đã đề xuất hướng phân tách giọng hát dựa trên thuật toán trích chọn đặc trưng STFT và kết hợp với mạng nơron hồi quy (RNN) Phương pháp này phân tích tín hiệu audio thành ảnh phổ và sau đó rút trích các đặc trưng thông tin về tần số của tín hiệu nhạc
Trang 2Một số phương pháp khác phân tích dựa trên mô hình học sâu (deep learning) để ước tính Mặt nạ nhị phân lý tưởng (Ideal Binary Mask - IBM) để tách tín hiệu giọng nói khỏi hỗn hợp nhiễu đã được đề xuất bởi [5] Nugraha và cộng sự [6] điều chỉnh các mạng nơron để phân tách nguồn đa kênh, sử dụng cả thông tin về pha và cường độ Đối với phân tách nguồn đơn âm, Huang et al [7] đề xuất một phương pháp sử dụng các mạng nơron học sâu, lấy một khung duy nhất của phổ, phổ cường độ của hỗn hợp làm đầu vào để trích chọn các đặc trưng âm sắc của khung đơn cho mỗi nguồn Uhlich et al [8] đề xuất một phương pháp khác lấy nhiều khung của phổ, phổ cường độ của hỗn hợp làm đầu vào và chỉ bao gồm các lớp được kết nối đầy đủ Phương pháp này sử dụng mô hình các đặc trưng âm sắc trên nhiều khung thời gian Mặc dù các phương pháp này hoạt động tốt và dựa vào các đặc trưng trên toàn bộ phổ tần số nhưng không khai thác hoàn toàn các đặc trưng về tần số thời gian cục bộ Hơn nữa, mô hình mạng nơron tích chập (CNN) trong nghiên cứu [9][10] đã tận dụng các đặc trưng quy mô nhỏ có trong dữ liệu để trích xuất giọng hát từ hỗn hợp âm nhạc
Trong bài báo này, chúng tôi thử nghiệm một mô hình phân tách giọng hát từ hỗn hợp âm nhạc bằng mạng nơron tích chập và phép biến đổi Fourier thời gian ngắn để phân tích các đặc trưng về biên độ của tín hiệu audio Không giống như hình ảnh 2D, phép biến đổi Fourier thời gian ngắn không có tính đối xứng trên cả hai trục, nhưng có thể tìm thấy sự đối xứng cục bộ dọc theo mỗi trục đơn Do đó, các bộ lọc được
sử dụng trong CNN cần phải được điều chỉnh phù hợp với biến đổi Fourier thời gian ngắn của âm thanh Kết quả của mô hình có thể được áp dụng đối với các thể loại nhạc khác hoặc được ứng dụng để xây dựng các hệ thống truy vấn thông tin nhạc dựa vào nội dung, kiểm tra việc sao chép bản quyền nhạc Bài báo được tổ chức bao gồm các phần chính như sau: phần I giới thiệu tổng quan, phần II mô tả các nghiên cứu liên quan đến phân tích tín hiệu audio Mô hình phân tách giọng hát từ hỗn hợp âm nhạc được trình bày trong phần III Phần IV mô tả kết quả thử nghiệm với bộ dữ liệu DSD100 [4] và phần V là phần kết luận
và thảo luận
2 Các nghiên cứu liên quan
Derek Mendez và cộng sự [3] đã đề xuất một phương pháp hiệu quả để phân tách nhạc nền và giọng hát Đầu tiên, máy học véctơ hỗ trợ SVM được sử dụng để gắn nhãn các phần của bài hát chứa giọng hát và các phần chỉ có nhạc nền, điều này cho phép tách một nhóm lớn các bài hát sau khi dược huấn luyện với SVM
để phân loại các phân đoạn chứa giọng hát trong một bản nhạc hoặc thể loại cụ thể Bài hát được gắn nhãn sau đó được chuyển tới thuật toán PCLA sau khi thực hiện phép biến đổi Fourier trong thời gian ngắn (STFT), còn được gọi là quang phổ Với phương pháp đề xuất của tác giả dựa trên ý tưởng và được cải tiến, kết quả thử nghiệm và nhận dạng trên tập dữ liệu các bài hát với tỷ lệ nhận dạng với độ chính xác gần 90% Pritish Chandna và cộng sự [1] đã đưa ra mô hình mạng nơron tích chập (CNN) để tách nguồn âm thanh đơn âm.Mô hình mạng CNN này có hai phần: (1) - phần mã hóa (Encoding) bao gồm hai lớp tích chập (lớp tích chập theo chiều dọc, lớp tích chập theo chiều ngang) và một lớp kết nối đầy đủ, (2) - phần giải mã (Decoding) là đầu ra của lớp kết nối đầy đủ đầu tiên được chuyển tới một lớp kết nối đầy đủ khác, có hàm kích hoạt ReLU và cùng kích thước đầu ra của lớp chập thứ hai Sau đó, lớp này được định hình lại về cùng kích thước với lớp tích chập chiều ngang và được chuyển qua các lớp giải mã liên tiếp, các phép toán nghịch đảo đến giai đoạn tích chập để ước lượng cho mỗi nguồn dự đoán Mô hình trên [1] đã được thử nghiệm, đánh giá trên tập dữ liệu Demixing Secrets Dataset 100 (DSD100) [4] và đạt được hiệu suất khá tốt, Source
to Distortion Ratio (SDR) 1.3 ~ 2.4dB và Source to Interference Ratio (SIR) ~3.6 dB
Trong nghiên cứu này, chúng tôi sử dụng mạng nơron tích chập (CNN) dựa trên cơ sở nghiên cứu của [1] để xây dựng mô hình cho bài toán phân tách giọng hát từ hỗn hợp âm nhạc Mô hình đề xuất và mô hình VGG16 [13] cũng được thử nghiệm và đánh giá trên tập dữ liệu DSD100 [4]
3 Đề xuất mô hình phân tách giọng hát từ hỗn hợp âm nhạc
3.1 Mô hình tổng quát hệ thống
Hệ thống phân tách giọng hát từ hỗn hợp âm nhạc bao gồm các thành phần: trích chọn đặc trưng, huấn luyện và nhận dạng phân tách giọng hát Kết quả sau khi trích đặc trưng của tín hiệu âm thanh là một tập
Trang 3các đặc trưng về thời gian, tần số, biên độ Chúng tôi sử dụng phương pháp biến đổi Fourier thời gian ngắn (STFT) để trích đặc trưng về biên độ Mạng nơron tích chập được sử dụng để nhận dạng và phân biệt giọng hát với nhạc đệm Quá trình huấn luyện mạng nơron tích chập sử dụng các vectơ đặc trưng và nhãn của giọng hát để huấn luyện mạng một cách tự động Hình 1 mô tả các thành phần và quá trình của hệ thống phân tách giọng hát từ hỗn hợp âm nhạc
Hình 1 Mô hình tổng quát của hệ thống phân tách giọng hát từ hỗn hợp âm nhạc
3.2 Tiền xử lý audio
Đầu vào của hệ thống là các tập tin tín hiệu âm thanh audio được lấy từ nguồn dữ liệu DSD100 [4], các tập tin âm thanh audio được thu âm với tần số lấy mẫu fs = 44100 Hz và kích thước cửa sổ Hamming là 1024 Các bài hát trong cở sở dữ liệu DSD100 có độ dài khác nhau, thời lượng trung bình của một bài hát là 4 phút 10 giây Vì vậy, chúng tôi cần chuẩn hóa chiều dài của các audio Các file audio sẽ được cắt thành nhiều đoạn, trong đó mỗi đoạn có thời lượng chuẩn là ~290ms Với các file audio có thời lượng lớn hơn thì chỉ chọn đoạn âm thanh ~290ms nằm ở giữa Do đó, toàn bộ các file tín hiệu âm thanh đều được phân tích thành ảnh phổ với kích thước 513 x 25 để làm dữ liệu đầu vào cho quá trình rút trích đặc trưng
3.3 Kiến trúc mô hình mạng nơron tích chập
Trong kiến trúc mạng đề xuất, các lớp được đặt tên theo số lượng lớp (lớp tích chập và các lớp kết nối đầy đủ) Ví dụ, mô hình M3 có 2 lớp tích chập và 1 lớp được kết nối đầy đủ (sử dụng các hàm kích hoạt ReLU, MaxPooling2D và Dropout sau các lớp tích chập) Với các thay đổi nhỏ của kiến trúc mạng cũng ảnh hưởng đến tên của cấu trúc mạng, ví dụ M4+D (tăng số lượng bộ lọc (filter) trong các lớp tích chập và điều chỉnh Dropout so với M4), M4++ là tăng số lượng bộ lọc trong các lớp tích chập so với M4+D, M5+f là điều chỉnh kích thước của tất cả bộ lọc
Bảng 1 Kiến trúc các mô hình mạng nơron tích chập
Cấu hình các mô hình mạng nơron tích chập
Dữ liệu đầu vào (ảnh tỷ lệ xám 513 x 25 pixel)
L1
Conv2D-16
(3,3)
ReLU
Conv2D-32 (3,3) ReLU
Conv2D-16 (3,3) ReLU
Conv2D-32 (3,3) ReLU
Conv2D-64 (3,3) ReLU
Conv2D-16 (5,5) ReLU
Conv2D-32 (5,5) ReLU MaxPooling2D (2,2)
Trang 4Cấu hình các mô hình mạng nơron tích chập
L2
Conv2D-32 (3,3)
ReLU
Conv2D-64 (3,3) ReLU
Conv2D-32 (3,3) ReLU
Conv2D-64 (3,3) ReLU
Conv2D-128 (3,3) ReLU
Conv2D-32 (5,5) ReLU
Conv2D-64 (5,5) ReLU MaxPooling2D (2,2)
L3
Conv2D-64 (3,3) ReLU
Conv2D-128 (3,3) ReLU
Conv2D-256 (3,3) ReLU
Conv2D-64 (5,5) ReLU
Conv2D-128 (5,5) ReLU MaxPooling2D (2,2)
Dense((512), Activation('relu'), Dropout(0.5))
Los
Tim
Trong đó: Loss: tỉ lệ lỗi khi huấn luyện, Acc: Độ chính xác, Time: Thời gian huấn luyện của mỗi epoch
Để kiểm tra mức độ ảnh hưởng độ sâu của mạng trong nhận dạng giọng hát, mô hình mạng nơron tích chập (CNN) được triển khai bắt đầu với mạng 3 lớp, tức là M3, và sau đó thêm lớp vào mạng này theo từng bước Mô hình CNN được sửa kích thước của tất cả bộ lọc từ 3x3 và tăng lên thành 5x5 ở các mô hình M4+f và M4++f Để giữ kích thước của đầu ra, mô hình được cố định kích thước trượt (stride) là 1 và kích thước padding=’same’ Việc lựa chọn kích thước bộ lọc nhỏ giúp giảm đáng kể về số lượng tham số trong mạng và giúp việc huấn luyện mạng nhanh hơn
Kết quả thử nghiệm trên tập dữ liệu đã được xử lý ở trên với số vòng lặp (epoch) lặp lại 10 lần, batch_size
= 32 cho tất cả các mô hình mạng Kết quả ở Bảng 1 cho thấy mô hình M4+D đạt độ chính xác khá cao 94.20%, tỉ lệ lỗi 0.1554, thời gian huấn luyện của mỗi epoch là 155s (giây) Từ kết quả trên, mô hình mạng CNN nhận dạng phân tách giọng hát từ hỗn hợp âm nhạc được đề xuất tại Hình 2
Hình 2 Mô hình mạng CNN nhận dạng phân tách giọng hát
Mô hình mạng CNN đề xuất bao gồm: lớp đầu vào, 3 lớp tích chập, 3 lớp lấy mẫu, lớp kết nối đầy đủ và lớp đầu ra
Lớp đầu vào có dạng input_shape = (n, 513, 25, 1) trong đó n là số lượng mẫu đầu vào và số lượng kênh
là 1 vì là ảnh nhị phân
Lớp 1: lớp tích chập với 32 bộ lọc (filter) với kích thước mỗi bộ lọc là (3x3), lớp lấy mẫu có kích thước (2x2), sử dụng hàm kích hoạt ReLU
Lớp 2: lớp tích chập với 64 bộ lọc với kích thước mỗi bộ lọc là (3x3), lớp lấy mẫu có kích thước (2x2),
sử dụng hàm kích hoạt ReLU
Lớp 3: lớp tích chập với 128 bộ lọc với kích thước mỗi bộ lọc là (3x3), lớp lấy mẫu có kích thước (2x2),
sử dụng hàm kích hoạt ReLU
Trang 5Lớp Flatten (64 x 3 x 128) thành lớp có 24,576 nút, lớp này kết nối với lớp FC (lớp kết nối đầy đủ Dense) sau nó có 512 nút
Lớp kết nối đầy đủ Dense là lớp đầu ra với 513 nút có số lượng trọng số là 512 x 513 + 513 = 263,169 nút Lớp này sử dụng hàm softmax để biểu diễn phân bố xác suất cho từng giọng hát
3.4 Mặt nạ nhị phân (Binary masking)
Như trong phần nghiên cứu [2], mong muốn tích hợp tính toán của mặt nạ nhị phân cho mỗi nguồn vào mạng Từ đầu ra của mạng (t,f), ta có thể tính toán mặt nạ nhị phân Mb(f) bằng cách so sánh với ∝ trong miền thính giác, được ký hiệu trong khung thời gian t và tần số f với một ngưỡng như sau:
( , ) = 1 ế ( , ) > ∝0 , ượ ạ (1) Mặt nạ sau đó được áp dụng cho tín hiệu hỗn hợp đầu vào để ước lượng cho kết quả dự đoán:
Trong đó ( , ) là phổ của tín hiệu hỗn hợp đầu vào
4 Kết quả thử nghiệm
Nghiên cứu sử dụng tập dữ liệu DSD100 [4] gồm 100 bài hát để huấn luyện và đánh giá mô hình Bộ dữ liệu này được chia thành hai phần: 70 bài hát dành cho quá trình huấn luyện mô hình, 30 bài hát còn lại dành cho quá trình kiểm tra, đánh giá mô hình Quá trình thực nghiệm mô hình được thực hiện dựa trên máy tính cá nhân, với cấu hình như sau: Intel® Core™ i5- 7200U CPU @ 2.50GHz 2.70GHz , RAM 8GB 4.1 Kết quả thực nghiệm
Mô hình mạng nơron tích chập (CNN) được huấn luyện bằng cách sử dụng lựa chọn giá trị batch_size = 32
và số vòng lặp (epoch) tăng dần ảnh hưởng đến sự thay đổi tốc độ học và đồng thời cũng ảnh hưởng đến tỉ
lệ lỗi, độ chính xác, thời gian huấn luyện của mô hình Kết quả thực nghiệm cho thấy giá trị batch_size=32,
số vòng lặp (epoch) = 50 cho kết quả cao nhất với độ chính xác là 97.24% Bảng 2 mô tả kết quả huấn luyện
và kiểm tra khi thay đổi số vòng lặp qua các trường hợp
Bảng 2 Bảng tổng hợp so sánh kết quả thử nghiệm
Trường
hợp Batch_size Số vòng lặp (epoch)
Số lượng mẫu
Tỉ lệ lỗi Độ chính xác (%) Huấn luyện Kiểm tra
Biểu đồ ở Hình 3 thể hiện tỉ lệ lỗi và độ chính xác với số vòng lặp (epoch) = 50 và batch_size = 32 cho thấy các thay đổi trong quá trình thực nghiệm
Trang 6Hình 3 Biểu đồ tỉ lệ lỗi và độ chính xác của mô hình mạng CNN với epoch = 50 và batch_size = 32
Hình 3 và kết quả của Bảng 2 cho thấy mô hình mạng nơron tích chập (CNN) cho kết quả cao nhất với
độ chính xác 97,24% tương ứng với số vòng lặp (epoch) = 50
4.2 So sánh kết quả thực nghiệm
Kết quả thực nghiệm với mô hình VGG16 [13] biểu đồ cho thấy tỉ lệ lỗi và độ chính xác với epoch = 50 và batch_size = 32 để thấy các thay đổi trong quá trình thực nghiệm
Hình 4 Biểu đồ tỉ lệ lỗi và độ chính xác của mô hình VGG16 với epoch = 50 và batch_size = 32
Hình 4 thể hiện độ chính xác của mô hình mạng VGG16 khi huấn luyện và kiểm tra là ổn định, giá trị lỗi giảm dần, độ chính xác của mô hình VGG16 trên tập kiểm tra là 93.98% và không có chiều hướng tăng trong khi tỉ lệ lỗi có chiều hướng tăng dần
Hình 5 biểu diễn kết quả thực nghiệm với mô hình mạng VGG16 và mô hình mạng nơron đề xuất, hai
mô hình được huấn luyện trên cùng tập dữ liệu đã được xử lý, số vòng lặp (epoch) tăng dần và số batch_size
= 32
Trang 7Hình 5 So sánh tỉ lệ lỗi và độ chính xác của hai mô hình VGG16 và mô hình mạng CNN đề xuất
So sánh kết quả thử nghiệm:
Bảng 3 mô tả sự so sánh giữa độ chính xác thu được từ mô hình mạng CNN đề xuất và các mô hình khác được sử dụng để nhận dạng và phân tách giọng hát trong các nghiên cứu trước đây
Bảng 3 Bảng so sánh kết quả thử nghiệm
1 Derek Mendez, Tarun Pondicherry, Chris Young [3] 90%
Độ chính xác từ mô hình mạng nơron tích chập CNN đề xuất cao hơn kết quả thử nghiệm từ mô hình VGG16 [13] và các công trình nghiên cứu trước đó Với độ chính xác thu được từ mô hình mạng CNN là 97.24% trên tập dữ liệu kiểm tra cho thấy mô hình đề xuất với việc điều chỉnh và bổ sung các tham số như MaxPooling2D, Dropout và hàm kích hoạt ReLU ở các lớp tích chập và lớp kết nối đầy đủ đã giảm tỉ lệ lỗi đáng kể và cho độ chính xác cao so với các mô hình trước đó
5 Kết luận và thảo luận
Bài báo này trình bày mô hình phân tách giọng hát từ hỗn hợp âm nhạc sử dụng mạng nơron tích chập (CNN) Tuy nhiên, đây là một công việc không đơn giản vì các thể loại nhạc vẫn còn là một khái niệm mở
và tùy thuộc vào ý kiến chủ quan của con người Trong nghiên cứu này, chúng tôi đề xuất sử dụng STFT
để rút trích các đặc trưng STFT là một kỹ thuật phân tích tín hiệu, cung cấp một cách biểu diễn tín hiệu trong miền thời gian và tần số dưới dạng ảnh phổ làm cho việc tính toán nhanh và hiệu quả Nghiên cứu cũng tập trung vào việc phân tách giọng hát bằng cách sử dụng kết hợp các đặc trưng về thời gian, tần số
và biên độ tạo nên một vectơ đặc trưng
Trong thời gian tới, nghiên cứu sẽ tập trung vào việc xây dựng và bổ sung tập các thuộc tính mô tả khái niệm giọng hát để nâng cao độ chính xác của mô hình mạng CNN Ngoài ra, chúng tôi sẽ nghiên cứu và đề xuất mô hình CNN riêng cho bài toán trích xuất các thông tin âm nhạc có ý nghĩa từ các tín hiệu âm thanh
LỜI CẢM ƠN Các tác giả chân thành cảm ơn Khoa Công nghệ Thông tin, Trường Đại học Cần Thơ, Trường Đại học Kỹ thuật Công nghệ Cần Thơ đã hỗ trợ để chúng tôi có thể thực hiện thành công đề tài
Trang 8Tài liệu tham khảo
1 Pritish Chandna, Marius Miron, Jordi Janer, and Emilia G´omez (2017), “Monoaural Audio Source Separation Using Deep Convolutional Neural Networks”, semantic scholar Corpus ID: 27739613
2 Po-Sen Huang, Minje Kim, Mark Hasegawa-Johnson, Paris Smaragdis (2014), “Singing-voice separation from monaural recordings using deep recurrent neural networks”, ISMIR, Corpus ID: 122871
3 Derek Mendez, Tarun Pondicherry, Chris Young (2012), “Extracting vocal sources from master audio recordings”, semantic scholar
4 Zafar R., Fabian S and Antoine L (2016),“ Professionally-produced music recordings”, [Online] Available: https://sisec.inria.fr/sisec-2016/2016-professionally-produced-music-recordings/
5 Wang, Y., Narayanan, A., and Wang, D (2014), “On Training Targets for Supervised Speech Separation”, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 22(12):1849–1858
6 Nugraha, A A., Liutkus, A., and Vincent, E (2016), “Multichannel audio source separation with deep neural networks”, Technical report
7 Huang, P.-S., Kim, M., Hasegawa-Johnson, M., and Smaragdis, P (2014), “Deep Learning for Monaural Speech Separation” Acoustics, Speech and Signal Processing (ICASSP), pp 1562–1566
8 Uhlich, S., Giron, F., and Mitsufuji, Y (2015), “Deep neural network based instrument extraction from music”, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp 2135–2139
9 Krizhevsky, A., Sutskever, I., and Hinton, G E (2012), “ImageNet Classification with Deep Convolutional Neural Networks”, In Advances in Neural Information Processing Systems, pp 1097–1105
10 Simpson, A J R (2015), “Probabilistic Binary-Mask Cocktail-Party Source Separation in a Convolutional Deep Neural Network”, arXiv:1503.06962
11 Dong, C., Loy, C C., He, K., and Tang, X (2015), “Image super-resolution using deep convolutional networks”, CoRR, abs/1501.00092
12 Noh, H., Hong, S., and Han, B (2015), “Learning deconvolution network for semantic segmentation”, CoRR, abs/1505.04366
13 Srikanth Tammina (2019), “Transfer learning using VGG-16 with Deep Convolutional Neural Network for Classifying Images”, IJSRP, Vol 9, Issue 10, ISSN 2250-3153, http://dx.doi.org/10.29322/IJSRP.9.10.2019.p9420