Định danh tự động một số làn điệu dân ca Việt Nam

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	123
Dung lượng	7,9 MB

Nội dung

Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.

LỜI CAM ĐOAN Tôi xin cam đoan tất nội dung luận án “Định danh tự động số điệu dân ca Việt Nam” cơng trình nghiên cứu cá nhân Các số liệu, kết luận án trung thực chưa tác giả khác công bố Việc tham khảo nguồn tài liệu thực trích dẫn đầy đủ ghi nguồn tài liệu tham khảo quy định Hà Nội, ngày 25 tháng năm 2023 TÁC GIẢ LUẬN ÁN GIÁO VIÊN HƯỚNG DẪN PGS.TS Trịnh Văn Loan Chu Bá Thành LỜI CẢM ƠN Để hoàn thành Luận án này, nỗ lực, cố gắng thân, tơi cịn nhận hỗ trợ, giúp đỡ tận tình từ thầy hướng dẫn; thầy Khoa Kỹ thuật máy tính - Trường Cơng nghệ Thông tin & Truyền thông, Đại học Bách khoa Hà Nội thành viên gia đình Tơi muốn bày tỏ lịng biết ơn đến thầy cô, bạn bè đồng nghiệp giúp đỡ tơi để có kết Trước hết, tơi xin gửi lời cảm ơn sâu sắc đến thầy hướng dẫn PGS.TS Trịnh Văn Loan Thầy tận tình giúp đỡ, bảo, đưa lời khuyên bổ ích, định hướng khoa học phương pháp nghiên cứu q báu để tơi triển khai hoàn thành luận án Tiếp đến, xin trân trọng cảm ơn Đại học Bách khoa Hà Nội; Trường Công nghệ Thông tin & Truyền thông; Khoa Kỹ thuật máy tính tạo điều kiện tốt cho thời gian học tập Tôi xin chân thành cảm ơn đồng nghiệp Khoa Công nghệ Thông tin - Trường Đại học Sư phạm Kỹ thuật Hưng Yên hỗ trợ, giúp đỡ động viên suốt thời gian học tập Cuối cùng, tơi xin bày tỏ lịng biết ơn sâu sắc đến cha mẹ, anh, chị, em gia đình bên để động viên, giúp đỡ vượt qua khó khăn, trở ngại để hồn thành q trình học tập Xin trân trọng cảm ơn! MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ MỞ ĐẦU 12 Chương TỔNG QUAN VỀ ÂM NHẠC VÀ PHÂN LỚP ÂM NHẠC THEO THỂ LOẠI 16 1.1 Âm thanh, âm nhạc 16 1.1.1 Khái niệm âm thanh, âm nhạc 16 1.1.2 Một số yếu tố âm nhạc 17 1.2 Một số đặc trưng trích chọn từ tín hiệu âm nhạc 18 1.2.1 Đặc trưng thống kê 18 1.2.2 Đặc trưng miền thời gian 19 1.2.3 Đặc trưng phổ 22 1.3 Một số thể loại âm nhạc phổ biến giới 25 1.4 Đôi nét nhạc dân ca Việt Nam 26 1.4.1 Đặc điểm âm nhạc, lời ca Chèo 27 1.4.2 Đặc điểm âm nhạc, lời ca Quan họ 28 1.4.3 Đặc điểm kỹ thuật hát Chèo Quan họ 30 1.5 Phân lớp âm nhạc theo thể loại 34 1.6 Một số liệu âm nhạc theo thể loại điển hình 35 1.7 Một số mơ hình dùng phân lớp thể loại âm nhạc 35 1.7.1 Bộ phân lớp SVM (Support Vector Machine) 35 1.7.2 Bộ phân lớp GMM (Gaussian Mixture Model) 36 1.7.3 Mạng nơ-ron nhân tạo (Artificial Neural Network) 38 1.8 Một số kết nghiên cứu phân lớp thể loại âm nhạc ngồi nước 48 1.8.1 Tình hình nghiên cứu nước 48 1.8.2 Tình hình nghiên cứu nước 54 1.9 Kết chương 55 Chương ĐỊNH DANH MỘT SỐ LÀN ĐIỆU DÂN CA VIỆT NAM 56 2.1 Bộ liệu âm nhạc Chèo Quan họ 56 2.2 Một số phương pháp tăng cường liệu 58 2.2.1 Chia đôi file liệu âm nhạc 59 2.2.2 Tạo tiếng vọng (creating echo) 59 2.2.3 Cộng nhiễu trắng (adding white noise) 59 2.2.4 Thay đổi cao độ (changing pitch) 60 2.3 Phân lớp, định danh số điệu dân ca Việt Nam dùng số thuật toán học máy truyền thống 61 2.3.1 Trường hợp 1: Định danh số điệu Quan họ dùng số mơ hình truyền thống thuộc công cụ WEKA 61 2.3.2 Trường hợp 2: Định danh số điệu Quan họ dùng GMM 64 2.3.3 Trường hợp 3: Phân lớp, định danh Chèo Quan họ 66 2.3.4 Trường hợp 4: Phân lớp Chèo Quan họ 69 2.3.5 Trường hợp 5: Định danh Chèo Quan họ 72 2.3.6 Trường hợp 6: Định danh Chèo Quan họ dùng i-vector 75 2.4 Phân lớp định danh số điệu dân ca Việt Nam dùng học sâu 77 2.4.1 Bộ liệu tham số sử dụng 77 2.4.2 Các mạng nơ-ron sâu dùng nghiên cứu 78 2.4.3 Kết nghiên cứu phân lớp định danh 84 2.5 Kết chương 88 Chương PHÂN LỚP THỂ LOẠI ÂM NHẠC TRÊN BỘ DỮ LIỆU NHẠC VIỆT, GTZAN VÀ FMA DÙNG HỌC SÂU 89 3.1 Các độ đo Accuracy, Precision, Recall f1-score 89 3.2 Phân lớp nhạc Việt dùng RAN (Residual Attention Network) 90 3.3 Nghiên cứu phân lớp thể loại âm nhạc liệu GTZAN FMA_SMALL 93 3.3.1 Nghiên cứu phân lớp GTZAN 93 3.3.3 Nghiên cứu phân lớp FMA_SMALL 102 3.4 Kết chương 108 KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN 110 Kết luận 110 Định hướng phát triển 111 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN 113 TÀI LIỆU THAM KHẢO 114 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Chữ viết đầy đủ Ý nghĩa Mạng nơ-ron nhân tạo ANN Artificial Neural Network CNN Convolutional Neural Networks Mạng nơ-ron lấy chập CRNN Convolutional Recurrent Neural Mạng nơ-ron hồi quy lấy chập Networks Capsule Neural Networks Mạng nơ-ron viên nang Deep Convolutional Neural Networks Mạng nơ-ron lấy chập sâu ELU Exponential Linear Unit Đơn vị kích hoạt tuyến tính hàm mũ GMM Gaussian Mixture Model Mơ hình hỗn hợp Gauss k-NN k- Nearest Neighbor Bộ phân lớp k- láng giềng gần MFCC Mel Frequency Cepstral Coefficients Các hệ số Cepstrum theo thang tần số Mel MGC Music Genre Classification Phân lớp thể loại âm nhạc MIR Music Information Retrieval Truy xuất thông tin âm nhạc ReLU Rectified Linear Unit Đơn vị chỉnh lưu tuyến tính SMO Sequential Minimal Optimization Thuật tốn tối ưu hóa tối thiểu SVM Support Vector Machine Máy vector hỗ trợ UBM Universal Background Model Mơ hình phổ quát DFT Discrete Fourier Transforms Biến đổi Fourier rời rạc MSE Mean Square for Error Trung bình bình phương lỗi EM Expectation Maximization Cực đại hóa kỳ vọng ML Maximum-Likelihood Cực đại khả CSN DCNN DANH MỤC CÁC BẢNG Bảng 1.1 So sánh kỹ thuật hát Chèo hát Quan họ (nguồn: [77]) 30 Bảng 1.2 Một số liệu âm nhạc điển hình theo thể loại 35 Bảng 1.3 Một số hàm kích hoạt thường dùng (nguồn: [89]) 39 Bảng 1.4 Thời gian địa điểm tổ chức ISMIR hàng năm (nguồn: [38]) 49 Bảng 1.5 Tóm tắt số kết nghiên cứu bật MGC GTZAN 50 Bảng 1.6 Tóm tắt số kết nghiên cứu bật MGC FMA_SMALL 52 Bảng 2.1 Ký hiệu điệu Chèo Quan họ dùng cho liệu 57 Bảng 2.2 Các trường hợp phân lớp định danh 61 Bảng 2.3 Tỷ lệ (%) định danh dùng SMO 62 Bảng 2.4 Tỷ lệ (%) định danh dùng MultiLayer Perceptron 63 Bảng 2.5 Tỷ lệ (%) định danh dùng MultiClass Classifier 63 Bảng 2.6 Tổng hợp kết định danh 63 Bảng 2.7 Ma trận nhầm lẫn với M = 16 tham số 64 Bảng 2.8 Ma trận nhầm lẫn với M = 8192 tham số 65 Bảng 2.9 Ma trận nhầm lẫn định danh điệu Chèo với M = 16 67 Bảng 2.10 Ma trận nhầm lẫn định danh điệu Quan họ với M = 16 67 Bảng 2.11 Ma trận nhầm lẫn định danh điệu Chèo với M = 4096 68 Bảng 2.12 Ma trận nhầm lẫn định danh điệu Quan họ với M = 4096 68 Bảng 2.13 Các tham số sử dụng 70 Bảng 2.14 Các tham số dùng nghiên cứu 78 Bảng 2.15 Các tham số CNN dùng trường hợp phân lớp 79 Bảng 2.16a Các tham số LSTM-1 dùng định danh 80 Bảng 2.16b Các tham số LSTM-2 dùng định danh 81 Bảng 2.17a Các tham số CRNN-1 dùng phân lớp 83 Bảng 2.17b Các tham số CRNN-2 dùng định danh 83 Bảng 2.18 Tổng hợp kết phân lớp Chèo Quan họ với tham số 85 Bảng 2.19 Tổng hợp kết định danh liệu Quan họ 85 Bảng 2.20 Tổng hợp kết định danh liệu Chèo 86 Bảng 2.21 Chênh lệch tỷ lệ định danh CNN so với mơ hình cịn lại 87 Bảng 3.1 Độ xác phân loại ảnh phổ tập xác thực 92 Bảng 3.2 Độ xác tập xác thực cho lần huấn luyện với fold_ext 92 Bảng 3.3 Độ xác tập xác thực ảnh phổ file âm 93 Bảng 3.4 Số lượng thể loại nhạc liệu GTZAN [24] 94 Bảng 3.5 Cấu hình CNN với 300 tham số 94 Bảng 3.6 Cấu hình LSTM với 300 tham số 95 Bảng 3.7 Cấu hình GRU với 300 tham số 95 Bảng 3.8 Cấu hình CSN với 300 tham số 96 Bảng 3.9 Mô tả liệu sử dụng nghiên cứu 96 Bảng 3.10: Kết phân lớp tập liệu S2n1 97 Bảng 3.11 Trung bình độ xác, AUC LSTM, CNN, GRU, CSN S7 100 Bảng 3.12: Kết phân lớp tập liệu S8 S9 100 Bảng 3.13: Kết phân lớp tập liệu S0, S1, S2n2, S2n3 101 Bảng 3.14: Kết phân lớp tập liệu S2n2 S2n3 dùng GRU 101 Bảng 3.15 Diễn giải liệu sử dụng 103 Bảng 3.16: Kết phân lớp tập liệu S4fH S4fL dùng DensetNet169 104 Bảng 3.17: Kết phân lớp tập liệu S4fL 104 Bảng 3.18: Kết phân lớp tập liệu S3e, S2 S1 106 Bảng 3.19: Kết phân lớp tập liệu S3s, S5s S5t 107 Bảng 3.20 Thời gian trung bình để huấn luyện epoch thời gian để hàm tổn thất hội tụ 108 DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ Hình 1.1 Minh hoạ phân phối Skewness 19 Hình 1.2 Minh hoạ phân bố Kurtosis 19 Hình 1.3 Năng lượng RMS điệu Chèo 20 Hình 1.4 ZCR điệu Chèo 20 Hình 1.5 Các bước tính hệ số MFCC 21 Hình 1.6 Các hệ số MFCC đạo hàm MFCC điệu Chèo 22 Hình 1.7 Spectral Centroid điệu Chèo Quan họ 22 Hình 1.8 Spectral Contrast điệu Quan họ Chèo 23 Hình 1.9 Spectral Rolloff điệu Chèo Quan họ 23 Hình 1.10 Spectral Bandwidth điệu Chèo Quan họ 24 Hình 1.11 Spectral Flux điệu Quan họ 24 Hình 1.12 Sơ đồ chung cho hệ thống phân lớp thể loại âm nhạc (nguồn: [22]) 34 Hình 1.13 Hình ảnh liệu, đường biên lề SVM 36 Hình 1.14 Phân bố Gauss với số giá trị 𝜇 𝜎 36 Hình 1.15 Phân bố Gauss đa thể tổ hợp phân bố Gauss đơn thể 37 Hình 1.16a Cấu trúc nơ-ron sinh học (nguồn: [88]) 38 Hình 1.16b Cấu trúc nơ-ron nhân tạo 38 Hình 1.17 Minh hoạ cách lấy chập áp lọc lên ma trận đầu vào 41 Hình 1.18 Minh hoạ thao tác pooling sử dụng max-pooling 42 Hình 1.19 Gated Recurrent Unit (nguồn: [103]) 43 Hình 1.20 Sơ đồ Residual Block với hàm ReLU 44 Hình 1.21 Attention module kết hợp Soft mask branch Trunk branch 44 Hình 1.22 Soft mask branch sử dụng Attention module 45 Hình 1.23 Kiến trúc DenseNet với khối Dense 46 Hình 1.24 Mạng CSN gồm M capsule mức cao N capsule mức thấp 47 Hình 1.25 Dạng sóng phổ Mel tương ứng cho trích đoạn file blues.00011.wav thể loại nhạc Blue 48 Hình 1.26 Thống kê số lượng báo có trích dẫn đến [24] 50 Hình 2.1 Minh họa việc chia file âm thành hai nửa thể loại phổ Mel tương ứng 59 Hình 2.2 Tiếng vọng quan sát phần cuối file âm 59 Hình 2.3 Cách tính SNR file giá trị trung bình SNR 60 Hình 2.4 Minh hoạ việc dịch chuyển cao độ lên nửa cung cung 60 Hình 2.5 Kết định danh dùng GMM với số thành phần Gauss M = 16  8192 65 Hình 2.6 Tỷ lệ nhận dạng phân lớp sơ 66 Hình 2.7 Tổng hợp kết phân lớp chi tiết với M = 16  4096 69 Hình 2.8 Sơ đồ phân lớp Chèo Quan họ toàn tập liệu 70 Hình 2.9 Tỷ lệ phân lớp tương ứng với tham số liệu Quan họ 70 Hình 2.10 Trung bình tỷ lệ phân lớp với tham số liệu Quan họ 71 Hình 2.11 Tỷ lệ phân lớp tương ứng với tham số liệu Chèo 71 Hình 2.12 Trung bình tỷ lệ phân lớp với tham số liệu Chèo 72 Hình 2.13 Sơ đồ định danh Chèo Quan họ dựa trích đoạn ngắn 72 Hình 2.14 Tỷ lệ định danh trích đoạn Chèo ứng với giá trị M 73 Hình 2.15 Tỷ lệ định danh trích đoạn Quan họ với giá trị M 75 Hình 2.16 So sánh tỷ lệ định danh trung bình PLDA, SphNormPLDA sử dụng i-vector với GMM sử dụng tham số S1 tập liệu Chèo 76 Hình 2.17 So sánh tỷ lệ định danh trung bình PLDA, SphNormPLDA sử dụng i-vector với GMM sử dụng tham số S1 tập liệu Quan họ 76 Hình 2.18 Cấu hình mơ hình CNN với 157 tham số dùng định danh 80 Hình 2.19 Cấu hình LSTM với 183 tham số dùng định danh 81 Hình 2.20 Cấu hình CRNN với 157 tham số dùng định danh 82 Hình 2.21 Phân chia liệu dùng cho huấn luyện, xác thực nhận dạng 84 Hình 2.22 Tổn thất độ xác huấn luyện, xác thực phân lớp định danh biến thiên theo epoch 87 Hình 3.1 Số lượng file tương ứng với thể loại liệu 90 Hình 3.2 Số lượng ảnh phổ tập liệu huấn luyện 91 Hình 3.3 Kiến trúc RAN dùng phân lớp thể loại nhạc Việt 91 Hình 3.4 Trung bình độ xác phân lớp mơ hình LSTM, CNN, GRU CSN liệu S2n1 98 Hình 3.5 Mơ hình LSTM: Trung bình cực đại cực tiểu Precision, Recall f1-score 10 thể loại nhạc tập liệu S7 98 Hình 3.6 Mơ hình CNN: Trung bình cực đại cực tiểu Precision, Recall f1score 10 thể loại nhạc tập liệu S7 99 Hình 3.7 Mơ hình GRU: Trung bình cực đại cực tiểu Precision, Recall f1score 10 thể loại nhạc tập liệu S7 99 Hình 3.8 Mơ hình CSN: Trung bình cực đại cực tiểu Precision, Recall f1score 10 thể loại nhạc tập liệu S7 99 Hình 3.9 So sánh độ xác phân lớp LSTM, CNN, GRU CSN liệu S7; GRU CSN liệu S8 S9 101 Hình 3.10 Độ xác phân lớp GRU tập liệu khác 102 10 Residual Attention Network”, 2019 International Conference on System Science and Engineering (ICSSE 2019), Dong Hoi, Vietnam, pp 115-119, ISBN: 978-1-7281-0524-6 (SCOPUS) Dao Thi Le Thuy, Trinh Van Loan, Chu Ba Thanh, Nguyen Hieu Cuong (2023), “Music Genre Classification Using DenseNet and Data Augmentation”, Computer Systems Science and Engineering, Vol.47, No.1, pp 657-674, 2023, DOI:10.32604/csse.2023.036858 Chu Ba Thanh, Trinh Van Loan, Dao Thi Le Thuy (2023), “Music Genre Classification Using Deep Neural Networks and Data Augmentation”, IEEE Access (ISI Q1 - hồn thành phản biện vịng 1) 109 KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN Kết luận Luận án trình bày trình nghiên cứu, triển khai thuật tốn mơ hình học máy liên quan đến liệu âm nhạc phân lớp thể loại âm nhạc Nghiên cứu liên quan đến việc lấy âm nhạc gán nhãn theo thể loại, trích rút đặc trưng liên quan đến miền thời gian, miền tần số phổ Sau đó, đặc trưng trích rút đưa làm đầu vào cho mơ hình phân lớp truyền thống, thuật toán học máy, mơ hình mạng nơ-ron sâu để phát thể loại âm nhạc cần nhận dạng Bộ liệu dùng nghiên cứu số điệu dân ca Việt Nam phổ biến mà điển hình Chèo Quan họ Ngồi ra, mơ hình mạng nơ-ron thử nghiệm ba liệu âm nhạc theo thể loại Bộ liệu thứ đến từ thử thách Zalo AI 2018; Bộ liệu thứ hai có tên GTZAN liệu cịn lại FMA Đối với thuật toán học máy truyền thống: Nghiên cứu tiến hành 10 điệu Quan họ, sử dụng SMO, MultiLayer Perceptron MultiClass Classifier công cụ WEKA Kết cao thuộc SMO (SVM) với tỷ lệ nhận dạng trung bình đạt 89,0% Kết nghiên cứu phân lớp định danh số điệu Chèo Quan họ dùng mơ hình GMM với số thành phần Gauss M (thay đổi theo luỹ thừa 2) trường hợp Các công cụ ALIZE, Pratt, Matlab sử dụng để trích rút kết hợp đặc trưng gồm: Các hệ số MFCC đạo hàm, tần số F0, Tempo (BPM) Intensity - Trường hợp 1: Định danh 10 điệu Quan họ, đặc trưng sử dụng gồm hệ số MFCC + lượng + F0, thử nghiệm cho thấy vai trò tham số F0 làm tăng kết nhận dạng - Trường hợp 2: Phân lớp định danh tiến hành liệu DANCA gồm 1000 file, đặc trưng sử dụng gồm hệ số MFCC + lượng Trung bình kết phân lớp Chèo Quan họ cao đạt 93,8% với M = 4096 Trung bình kết định danh cao đạt 85,6% với M = 4096 - Trường hợp 3: Nghiên cứu tiến hành với đặc trưng bổ sung với MFCC + lượng gồm: tần số F0, Intensity Tempo liệu DANCA Trung bình kết định danh cao (khi chưa bổ sung tham số) đạt 96,62% 96,72% (sau bổ sung tham số) Nghiên cứu định danh với trích đoạn ngắn (có độ dài thay đổi từ 4s  16s) trích từ liệu dùng cho nhận dạng Trung bình tỷ lệ nhận dạng với độ dài trích đoạn 16s đạt 94,44% so với sử dụng toàn nội dung file âm để nhận dạng Thử nghiệm i-vector cho kết nhận dạng thấp so với GMM Đối với mơ hình mạng nơ-ron sâu CNN, LSTM CRNN, nghiên cứu phân lớp định danh liệu DANCA với tham số (157 hệ số 183 hệ số) Trong nghiên cứu sử dụng phương pháp chia đôi file liệu âm nhạc để tăng cường liệu cho liệu DANCA thành 2000 file Kết phân lớp định danh 110 với hai tham số cho thấy vượt trội mơ hình mạng nơ-ron sâu so với GMM, cụ thể: - Trung bình kết phân lớp cao thuộc mơ hình CRNN2 99,66% (157 hệ số) 99,92% (183 hệ số) thuộc mơ hình CNN, trung bình tỷ lệ nhận dạng thấp đạt 99,16% với mơ hình CRNN1 Trong với GMM kết trường hợp phân lớp cao đạt 93,8% - Kết thử nghiệm định danh điệu Quan họ cao thuộc mơ hình CNN với 99,50% hai tham số Kết tương ứng với GMM định danh cao đạt 96,76% Quan họ - Nghiên cứu phân lớp thể loại nhạc Việt Zalo AI Challenge 2018 dùng RAN với đặc trưng phổ Trong nghiên cứu có sử dụng phương pháp tăng cường liệu để làm cho class có số ảnh cân Trung bình kết thử nghiệm cao đạt 71,7%, cao so với kết đạt giải (70,1%) thử thách - Nghiên cứu tiến hành liệu FMA_SMALL Trường hợp có sử dụng kỹ thuật tăng cường liệu là: cộng nhiễu trắng, tạo tiếng vọng thay đổi cao độ Nghiên cứu tiến hành mơ hình mạng DenseNet, CNN GRU, đặc trưng sử dụng gồm hệ số phổ Mel Kết đạt độ xác định danh thể loại âm nhạc 98,97% sử dụng DenseNet121 Độ xác định danh vượt trội độ xác tuyệt đại đa số nghiên cứu giới với liệu FMA_SMALL - Cuối cùng, nghiên cứu phân lớp thể loại âm nhạc tiến hành liệu GTZAN với đặc trưng phổ Mel, sử dụng CNN, LSTM, GRU CSN (CapNet) Trong nghiên cứu có sử dụng phương pháp tăng cường liệu chia đôi file âm Trung bình độ xác định danh thể loại âm nhạc cao đạt 99,91% CSN Độ xác đạt vượt trội độ xác tất nghiên cứu có giới với liệu GTZAN Tóm lại, kết nghiên cứu cho thấy luận án có đóng góp khoa học sau: • Xây dựng liệu âm nhạc dân ca gồm điệu dân ca phổ biến Chèo Quan họ • Đề xuất mơ hình học máy truyền thống học sâu để định danh số điệu Chèo Quan họ phổ biến • Đề xuất phương pháp tăng cường liệu mơ hình học sâu thích hợp cho phân lớp thể loại âm nhạc nói chung Định hướng phát triển Trong khn khổ có hạn luận án, nội dung nghiên cứu trước hết tập trung vào 25 điệu Chèo 25 điệu Quan họ Như trình bày trên, số lượng điệu Chèo Quan họ phong phú, có số điệu phổ biến (có nhiều ca sĩ thể hiện) nên cần nhiều thời gian, cơng sức để sưu tầm 111 liệu đủ lớn Từ kết nghiên cứu, luận án đề xuất số nội dung nhằm mở rộng hướng nghiên cứu tại: • Nâng cao số lượng liệu điệu dân ca Chèo Quan ho để có liệu hoàn chỉnh phục vụ cho nghiên cứu định danh điệu dân ca Việt Nam thuộc hai loại hình dân ca • Xây dựng cơng cụ tự động tìm kiếm theo thể loại sáng tác âm nhạc cơng bố có sẵn Internet 112 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN Chu Bá Thành, Trịnh Văn Loan, Nguyễn Hồng Quang (2016), “Định danh tự động một số làn điệu dân ca Việt Nam”, Kỷ yếu Hội thảo quốc gia lần thứ XIX: Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông (@), trang 92- 97 Chu Bá Thành, Trịnh Văn Loan, Nguyễn Hồng Quang (2017), “Mơ hình GMM định danh tự động một số làn điệu dân ca Quan họ Bắc Ninh”, Kỷ yếu Hội nghị quốc gia lần thứ X Nghiên cứu ứng dụng công nghệ thông tin (FAIR), Đà Nẵng, trang 417-422 Chu Bá Thành, Trịnh Văn Loan, Nguyễn Hồng Quang (2018), “Phân lớp, định danh Chèo Quan họ”, Kỷ yếu Hội nghị quốc gia lần thứ XI Nghiên cứu ứng dụng công nghệ thông tin (FAIR), Hà Nội, trang 395-403 Quang H Nguyen, Trang T T Do, Thanh B Chu, Loan V Trinh, Dung H Nguyen, Cuong V Phan, Tuan A Phan, Dung V Doan, Hung N Pham, Binh P Nguyen and Matthew C H Chua (2019), “Music Genre Classification Using Residual Attention Network”, 2019 International Conference on System Science and Engineering (ICSSE 2019), Dong Hoi, Vietnam, pp 115-119, ISBN: 978-1-7281-0524-6 (SCOPUS) Thanh, C B., Van Loan, T., & Quang, N H (2020), “Some new results on automatic identification of Vietnamese folk songs Cheo and Quanho”, Journal of Computer Science and Cybernetics, vol 36, no 4, pp 325-345 Thành, C B., Van Loan, T., & Le Thuy, D T (2022), “Automatic identification of some Vietnamese folk songs Cheo and Quanho using Convolutional Neural Networks”, Journal of Computer Science and Cybernetics, vol 38, no 1, pp 63-83 Dao Thi Le Thuy, Trinh Van Loan, Chu Ba Thanh, Nguyen Hieu Cuong (2023), “Music Genre Classification Using DenseNet and Data Augmentation”, Computer Systems Science and Engineering, Vol.47, No.1, pp 657-674, 2023, DOI:10.32604/csse.2023.036858 Chu Ba Thanh, Trinh Van Loan, Dao Thi Le Thuy (2023), “Music Genre Classification Using Deep Neural Networks and Data Augmentation”, IEEE Access (ISI Q1 - hồn thành phản biện vịng 1) 113 TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] T Heittola (2003), “Automatic classification of music signals”, Master’s thesis, Tampere University of Technology Aucouturier, J J., & Pachet, F (2003), “Representing musical genre: A state of the art”, Journal of new music research, vol 32, no 1, pp 83-93 Trịnh Hồi Thu (2012), “Giáo trình mơn Lý thuyết âm nhạc bản”, Trường Đại học Sư phạm Nghệ thuật Trung ương “https://juliajooya.com/2020/10/11/what-are-the-8-elements-of-music/”, [Online] Montgomery, D C., Runger, G C., & Medal, E G U (1996), “Probabilidad y estadística aplicadas a la ingeniería”, (Vol 1) México: McGraw-Hill Panagiotakis, C., & Tziritas, G (2005), “A speech/music discriminator based on RMS and zero-crossings”, IEEE Transactions on multimedia, 7(1), 155166 “https://en.wikipedia.org/wiki/Energy_(signal_processing%29”, [Online] J D Deng, C Simmermacher, and S Cranefield (2008), “A study on feature analysis for musical instrument classification”, IEEE Trans Syst., Man, Cybern., Part B (Cybern.), vol 38, no 2, pp 4291438 Logan, Beth (2000), “Mel Frequency Cepstral Coefficients for Music Modeling”, Proceedings of the 1st International Conference on Music Information Retrieval (Plymouth (Massachusetts), USA, vol 270, no 1, pp, Murthy, H.a., F Beaufays, L.p Heck, and M Weintraub (1999), “Robust Text-Independent Speaker Identification over Telephone Channels”, IEEE Transactions on Speech and Audio Processing Vol 7, Issue 5, pp 554-568 Essid, S., G Richard, and B David (2006), “Instrument Recognition in Polyphonic Music Based on Automatic Taxonomies”, IEEE Transactions on Audio, Speech and Language Processing Vol 14, Issue 1, pp 68-80 Hansen, John H L., and Sanjay Patil (2007), “Speech Under Stress: Analysis, Modeling and Recognition”, Lecture Notes in Computer Science Vol 4343, pp 108-137 Tsang, Christine D., and Laurel J Trainor (2002), “Spectral Slope Discrimination in Infancy: Sensitivity to Socially Important Timbres”, Infant Behavior and Development Vol 25, Issue 2, pp 183-194 Li, Tao, and M Ogihara (2005), “Music Genre Classification with Taxonomy”, IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol 5, pp v-197 Ren, Jia-Min, Ming-Ju Wu, and Jyh-Shing Roger Jang (2015), “Automatic Music Mood Classification Based on Timbre and Modulation Features”, IEEE Transactions on Affective Computing Vol 6, Issue 3, pp 236-246 114 [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] S Zhang, Y Guo, and Q Zhang (2009), “Robust Voice Activity Detection Feature Design Based on Spectral Kurtosis”, First International Workshop on Education Technology and Computer Science, pp 269-272 Lehner, Bernhard, et al (2014), “On the Reduction of False Positives in Singing Voice Detection”, 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp 7480-7484 E Mezghani, M Charfeddine, C B Amar, and H Nicolas (2016), “Multifeature speech/music discrimination based on mid-term level statistics and supervised classifiers”, in 2016 IEEE/ACS 13th International Conference of Computer Systems and Applications (AICCSA), pp 1-8 Jiang, Dan-Ning, Lie Lu, Hong-Jiang Zhang, Jian-Hua Tao, and Lian-Hong Cai (2002), “Music type classification by spectral contrast feature”, In Multimedia and Expo, 2002 ICME‘02 Proceedings 2002 IEEE International Conference on, IEEE, vol 1, pp 113-116 Scheirer, E., and M Slaney (1997), “Construction and Evaluation of a Robust Multifeature Speech/Music Discriminator”, IEEE International Conference on Acoustics, Speech, and Signal Processing Volume 2, pp 1221-1224 Chang-Hsing Lee, Jau-Ling Shih, Kun-Ming Yu, and Hwai-San Lin (2009), “Automatic Music Genre Classification Based on Modulation Spectral Analysis of Spectral and Cepstral Features”, IEEE Transactions on Multimedia, Vol 11, No 4, pp 670-682 Đặng Thị Lan (2020), “Dạy học hát Chèo và Quan họ cho sinh viên Đại học Sư phạm âm nhạc”, Luận án Tiến sĩ - Trường Đại học Sư phạm Nghệ thuật Trung ương Hoàng Kiều (2001), “Tìm hiểu các làn điệu Chèo cổ”, NXB sân khấu - Nhà hát Chèo Việt Nam Bùi Đức Hạnh (2006), “150 làn điệu Chèo cổ”, NXB Văn hoá Dân tộc Hoàng Kiều, Hà Hoa (2007), “Những làn điệu Chèo cổ chọn lọc”, NXB Thơng tin Văn hố Nguyễn Thị Tuyết (2000), “Giáo trình hát Chèo”, NXB Học viện Sân khấu Điện ảnh Hà Nội Nguyễn Thị Tuyết (2007), “Tình dậu mà tình ơi”, NXB Học viện Sân khấu Điện ảnh Hà Nội “https://vi.wikipedia.org/wiki/Chèo”, [Online] Lê Danh Khiêm, Hoắc Công Huynh, Lê Thị Chung (2006), “Không gian văn hoá Quan họ”, NXB Trung tâm VHTT tỉnh Bắc Ninh i Termens, E G (2009), “Audio content processing for automatic music genre classification: descriptors, databases, and classifiers”, Doctoral dissertation, PhD thesis, Universitat Pompeu Fabra, Barcelona, Spain “ https://www.ismir.net/resources/datasets/”, [Online] 115 [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] A Tzanetakis, G and Cook, P (2002), “Musical genre classification of audio signal”, IEEE Transactions on Speech and Audio Processing, Vol 10, No 3, pp 293-302 Cano P, Gómez E, Gouyon F, Herrera P, Koppenberger M, Ong B, Serra X, Streich S, Wack N (2006), “ISMIR 2004 audio description contest”, Barcelona: Universitat Pompeu Fabra, Music technology Group; 20 p Report No.: MTG-TR-2006-02 Silla Jr CN, Koerich AL, Kaestner CA (2008), “The latin music database”, In: ISMIR, pp 451-456 Gouyon F, Dixon S, Pampalk E, Widmer G (2004), “Evaluating rhythmic descriptors for musical genre classification”, In: Proc of the AES 25th International Conference, pp 196-204 Defferrard M, Benzi K, Vandergheynst P, Bresson X (2017), “FMA: A dataset for music analysis”, In: Proc of the 18th International Society for Music Information Retrieval Conference, ISMIR 2017, Suzhou, China, pp 316-323 “https://phamdinhkhanh.github.io/deepai-book/ch_ml/SVM.html”, [Online] Bishop, Christopher M (2006), “Pattern recognition and Machine Learning”, Springer Dempster, A P., Laird, N M., & Rubin, D B (1977), “Maximum likelihood from incomplete data via the EM algorithm”, Journal of the royal statistical society: series B (methodological), vol 39, no 1, pp 1-38 “https://www.xenonstack.com/blog/artificial-neural-network-applications”, [Online] “https://aicurious.io/blog/2019-09-23-cac-ham-kich-hoat-activation-functiontrong-neural-networks”, [Online] Fukushima, Kunihiko (1980), “A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”, Biol Cybern, vol 36, pp 193-202 LeCun, Yann, et al (1998), “Gradient-based learning applied to document recognition”, Proceedings of the IEEE, vol 86, no 11, pp 2278-2324 Ciregan, D., Meier, U., & Schmidhuber, J (2012), “Multi-column deep neural networks for image classification”, In 2012 IEEE conference on computer vision and pattern recognition, IEEE, pp 3642-3649 Cireşan, D., & Meier, U (2015), “Multi-column deep neural networks for offline handwritten Chinese character classification”, In 2015 international joint conference on neural networks (IJCNN), IEEE, pp 1-6 Vishnupriya, S., & Meenakshi, K (2018) “Automatic music genre classification using convolution neural network”, In 2018 international conference on computer communication and informatics (ICCCI), IEEE, pp 1-4 116 [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] Matocha, Mateusz, and S K Zieliński (2018), “Music genre recognition using convolutional neural networks”, Advances in Computer Science Research, vol 14, pp 125-142 Keunwoo Choi, George Fazekas, Mark Sandler, and Jeonghee Kim (2015), “Auralisation of deep convolutional neural networks: Listening to learned features”, Proceedings of the 16th International Society for Music Information Retrieval Conference, ISMIR, 2015, pp 26-30 Paulo Chiliguano and Gyorgy Fazekas (2016), “Hybrid music recommender using content-based and social information”, 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE, pp 2618-2622 Pelchat, Nikki, and Craig M Gelowitz (2020), “Neural network music genre classification”, Canadian Journal of Electrical and Computer Engineering, vol 43, no 3, pp 170-173 Allamy, S., & Koerich, A L (2021, December), “1D CNN architectures for music genre classification”, In 2021 IEEE Symposium Series on Computational Intelligence (SSCI) (pp 01-07) IEEE “https://towardsdatascience.com/convolutional-neural-networks-explained9cc5188c4939”, [Online] Sherstinsky, Alex (2020), “Fundamentals of recurrent neural network (RNN) and long shortterm memory (LSTM) network”, Physica D: Nonlinear Phenomena, vol 404, pp 132306 Hochreiter, Sepp, and Jăurgen Schmidhuber (1997), Long short-term memory, Neural Computation, vol 9, no 8, pp 1735-1780 V L Trinh, T L T Dao, X T Le and C Eric (2022), “Emotional Speech Recognition Using Deep Neural Networks”, Sensors, vol.22, no.4, pp 1-20 Fei Wang, Mengqing Jiang, Chen Qian, Shuo Yang, Cheng Li, Honggang Zhang, Xiaogang Wang, and Xiaoou Tang (2017), “Residual attention network for image classification”, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3156-3164 “https://www.it4nextgen.com/keras-image-classification-models”, [Online] Huang Gao, Zhuang Liu, Laurens Van Der Maaten, and Kilian Q Weinberger (2017), “Densely connected convolutional networks”, in Pro IEEE conference on computer vision and pattern recognition, pp 4700-4708 G E Hinton, S Krizhevsky & S D Wang (2011), “Transforming autoencoders”, in International Conference on Artificial Neural Networks, pp 44–51 Springer Sara Sabour, Nicholas Frosst, Geoffrey E Hinton (2017), “Dynamic Routing Between Capsules”, Neural Information Processing Systems, vol 30, pp 3856-3866 117 [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71] [72] [73] [74] Sabour, Sara, Nicholas Frosst, and Geoffrey Hinton (2018), “Matrix capsules with EM routing”, 6th international conference on learning representations, ICLR Vol 115 L Trinh Van, Q H Nguyen, and T Dao Thi Le (2022), “Emotion Recognition with Capsule Neural Network”, Computer Systems Science and Engineering, vol 41, no 3, pp 1083-1098, doi: 10.32604/csse.2022.021635 Mangesh M Panchwagh and Vijay D Katkar (2016), “Music genre classification using data mining algorithm”, In 2016 Conference on Advances in Signal Processing (CASP), pages 49-53, IEEE Nasrullah, Zain, and Yue Zhao (2019), “Music artist classification with convolutional recurrent neural networks”, 2019 International Joint Conference on Neural Networks (IJCNN) IEEE, pp 1-8 Rao, K R., Sharvani, K., Vaishnawi, Ch S., & Marina, M (2022), “Singer Identification by Vocal Parts Detection and Singer Classification Using LSTM Neural Networks”, International Journal for Research in Applied Science and Engineering Technology, vol 10, no 8, pp 1644-1648 Xiao Hu, Kahyun Choi, and J Stephen Downie (2017), “A framework for evaluating multimodal music mood classification”, Journal of the Association for Information Science and Technology, vol 68, no.2, pp 273-285 DG Bhalke, CB Rama Rao, and Dattatraya S Bormane (2016), “Automatic musical instrument classification using fractional fourier transform basedmfcc features and counter propagation neural network”, Journal of Intelligent Information Systems, vol 46, no 3, pp 425-446 Li, Tao, and Mitsunori Ogihara (2004), “Content-based music similarity search and emotion detection”, 2004 IEEE International Conference on Acoustics, Speech, and Signal Processing Vol IEEE, pp 705-708 Lee, Jongpil, et al (2020), “Disentangled multidimensional metric learning for music similarity”, ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) IEEE, pp 6-10 B Matityaho and M Furst (1995), “Neural network based model for classification of music type”, In Proceedings of the Convention of Electrical and Electronics Engineers in Israel, pp 1-5 “https://ismir.net/conferences/”, [Online] Sturm BL (2012), “A survey of evaluation in music genre recognition”, In: International Workshop on Adaptive Multimedia Retrieval, Springer, pp 2966 Knees P, Schedl M (2013), “A survey of music similarity and recommendation from music context data”, ACM Trans on Multimedia Computing, Communications, and Applications (TOMM) vol 10, no 1, pp 1-21 Corrêa DC, Rodrigues FA (2016), “A survey on symbolic data-based music genre classification”, Expert Systems with Applications 60:190-210 118 [75] [76] [77] [78] [79] [80] [81] [82] [83] [84] [85] [86] [87] [88] “https://scholar.google.co.kr”, [Online] M H Pimenta-Zanon, G M Bressan, and F M Lopes (2021), “Complex Network-Based Approach for Feature Extraction and Classification of Musical Genres”, arXiv, doi: 10.48550/ARXIV.2110.04654 Dokania, Shubham, and Vasudev Singh (2019), “Graph Representation learning for Audio & Music genre Classification”, arXiv preprint arXiv:1910.11117 S A Patil and T R Komati (2022), “Designing of a Novel Neural Network Model for Classification of Music Genre”, Ingénierie des systèmes d information, vol 27, no 2, pp 327-333, doi: 10.18280/isi.270217 A Elbir and N Aydin (2020), “Music genre classification and music recommendation by using deep learning”, Electronics Letters, vol 56, no 12, pp 627-629 C El Achkar, R Couturier, T Atéchian, and A Makhoul (2021), “Combining Reduction and Dense Blocks for Music Genre Classification”, Neural Information Processing, pp 752–760, doi: 10.1007/978-3-030-92310-5_87 Ghosal, Soumya Suvra, and Indranil Sarkar (2020), "Novel Approach to Music Genre Classification using Clustering Augmented Learning Method (CALM)", AAAI Spring Symposium: Combining Machine Learning with Knowledge Engineering (1) L Yang and H Zhao (2021), “Sound Classification Based on Multihead Attention and Support Vector Machine”, Mathematical Problems in Engineering, vol 2021, pp 1-11, doi: 10.1155/2021/9937383 H C Ceylan, N Hardalaỗ, A C Kara, and F Hardalaỗ (2021), Automatic Music Genre Classification and Its Relation with Music Education”, World Journal of Education, vol 11, no 2, p 36, doi: 10.5430/wje.v11n2p36 R Rajan and B S S Mohan (2021), “Distance Metric Learnt Kernel-Based Music Classification Using Timbral Descriptors”, International Journal of Pattern Recognition and Artificial Intelligence, vol 35, no 13, p.2151014 Lau, D S., & Ajoodha, R (2022), “Music genre classification: A comparative study between deep learning and traditional machine learning approaches”, In Proceedings of Sixth International Congress on Information and Communication Technology: ICICT 2021, London, Volume (pp 239-247) Springer Singapore Y Hu and G Mogos (2022), “Music genres classification by deep learning”, Indonesian Journal of Electrical Engineering and Computer Science, vol 25, no 2, p 1186, doi: 10.11591/ijeecs.v25.i2.pp1186-1198 W Wang and M Sohail (2022), “Research on Music Style Classification Based on Deep Learning”, Computational and Mathematical Methods in Medicine, vol 2022, pp 1-8, doi: 10.1155/2022/3699885 M S Islam et al (2022), “Machine Learning-Based Music Genre 119 Classification with Pre-Processed Feature Analysis”, Jurnal Ilmiah Teknik Elektro Komputer dan Informatika (JITEKI), vol 7, no 3, p 491, doi: 10.26555/jiteki.v7i3.22327 [89] M Chaudhury, A Karami and M A Ghazanfar (2022), “Large-Scale Music Genre Analysis and Classification Using Machine Learning with Apache Spark”, Electronics, vol 11, no 16, p 2567 [90] Wang, Kun-Ching (2020), “Robust audio content classification using hybridbased SMD and entropy-based VAD”, Entropy ,Vol 22, Issue 2, no.183, pp.12 [91] Ghosh, P., Mahapatra, S., Jana, S., & Jha, R K (2023), “A Study on Music Genre Classification using Machine Learning”, International Journal of Engineering Business and Social Science, 1(04), 308-320 [92] S Chillara, A S Kavitha, S A Neginhal, S Haldia and K S Vidyullatha (2019), “Music genre classification using machine learning algorithms: a comparison”, International Research Journal of Engineering and Technology (IRJET), vol.6, no.5, pp 851-858 [93] W Bian, J Wang, B Zhuang, J Yang, S Wang, and J Xiao (2019), “AudioBased Music Classification with DenseNet and Data Augmentation”, Lecture Notes in Computer Science, pp 56-65 [94] D Kostrzewa, W Mazur and R Brzeski (2022), “Wide Ensembles of Neural Networks in Music Genre Classification”, International Conference on Computational Science, Springer, Cham, pp 64-71 [95] Y Qin and A Lerch (2019), “Tuning Frequency Dependency in Music Classification”, ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp 401-405 [96] C Ke and L Beici (2020), “Do User Preference Data Benefit Music Genre Classification Tasks?”, in Proc the 21st Int Society for Music Information Retrieval Conf., Montréal, Canada [97] V Choudhary and A Vyas (2018), “CS543: Music Genre Recognition through Audio Samples”, small 8.8: 30, pp 1-6 [98] Heakl, A Abdelgawad and V Parque (2022), “A Study on Broadcast Networks for Music Genre Classification”, 2022 International Joint Conference on Neural Networks (IJCNN), pp 1-8, doi: 10.1109/IJCNN55064.2022.9892651 [99] J Park, L Jongpil, P Jangyeonk, H Jung-Woo and N Juhan (2018), “Representation Learning of Music Using Artist Labels”, in Pro the 19th ISMIR Conference, Paris, France, September 23-27, pp 717-724 [100] D Kostrzewa, P Kaminski and R Brzeski (2021), “Music Genre Classification: Looking for the Perfect Network”, International Conference on Computational Science, Springer, Cham, pp 55-67 [101] Y Yi, K Y Chen and H Y Gu (2019), “Mixture of CNN experts from 120 [102] [103] [104] [105] [106] [107] [108] [109] [110] [111] [112] [113] [114] [115] multiple acoustic feature domain for music genre classification”, Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), IEEE, pp 1250-1255 D Kostrzewa, M Ciszynski and R Brzeski (2022), “Evolvable hybrid ensembles for musical genre classification”, in Pro Genetic and Evolutionary Computation Conference Companion, pp 252-255 Chai, Wei, and Barry Vercoe (2001), “Folk music classification using hidden Markov models”, Proceedings of International Conference on Artificial Intelligence Vol 6, No 6, pp 1-6 Bassiou, Nikoletta, Constantine Kotropoulos, and Anastasios PapazoglouChalikias (2015), “Greek folk music classification into two genres using lyrics and audio via canonical correlation analysis”, Image and Signal Processing and Analysis (ISPA), 2015 9th International Symposium on IEEE, pp 238243 Rajesh, Betsy, and D G Bhalke (2016), “Automatic genre classification of Indian Tamil and western music using fractional MFCC”, International Journal of Speech Technology vol 19, no 3, pp 551-563 Phan Anh Cang, Phan Thượng Cang (2016), “Phân loại nhạc theo thể loại dùng phép biến đổi Wavelet rời rạc”, Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)”, pp 521-531 Phan Anh Cang, Nguyễn Thị Kim Khánh, and Phan Thượng Cang, “Phân loại nhạc Việt Nam theo thể loại dựa âm sắc và nhịp điệu”, Tạp chí Khoa học Trường Đại học Cần Thơ (2017), pp 145-154 “https://challenge.zalo.ai/”, [Online] “https://librosa.github.io/librosa”, [Online] “https://www1.icsi.berkeley.edu/Speech/faq/speechSNR.html”, [Online] Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., & Witten, I H (2009), “The WEKA data mining software: an update”, ACM SIGKDD explorations newsletter, vol 11, no 1, pp 10-18 Witten, Ian H., and Eibe Frank (2005), “Data Mining: Practical machine learning tools and techniques”, Morgan Kaufmann Schuller, B., Steidl, S., Batliner, A (2009), “The InterSpeech 2009 Emotion Challenge”, In: Proc INTERSPEECH 2009, pp 312-315 Brighton, UK Bonastre, J F., Wils, F., & Meignier, S (2005), “ALIZE, a free toolkit for speaker recognition”, In Proceedings (ICASSP'05) IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol 1, pp I-737 IEEE Larcher, A., Bonastre, J.-F., Fauve, B., Lee, K A., Lévy, C., Li, H., Mason, J S D., & Parfait, J.-Y (2013), “ALIZE 3.0 - open source toolkit for state-of- 121 [116] [117] [118] [119] [120] [121] [122] [123] [124] [125] [126] [127] [128] the-art speaker recognition”, In Annual Conference of the International Speech Communication Association, pp 2768-2772 “http://www.irisa.fr/metiss/guig/spro/spro-4.0.1/spro_1.html#SEC1”, [Online] “https://www.fon.hum.uva.nl/praat/download_win.html”, [Online] “https://www.tutorialspoint.com/matlab/index.html”, [Online] N Dehak, P J Kenny, R Dehak, P Dumouchel, and P Ouellet (2011), “Front-end factor analysis for speaker verification”, in IEEE Transactions on Audio, Speech, and Language Processing, vol 19, no 4, pp 788-798 D Snyder, D Garcia-Romero, G Sell, D Povey and S Khudanpur (2018), “X-vectors: Robust dnn embeddings for speaker recognition”, 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary, AB, pp 5329-5333 P Kenny, G Boulianne, P Ouellet, and P Dumouchel (2007), “Joint factor analysis versus eigenchannels in speaker recognition”, IEEE Transaction on Audio Speech and Language Processing, vol 15, no 4, pp.1435-1447 P Kenny, P Ouellet, N Dehak, V Gupta, and P Dumouchel (2008), “A study of interspeaker variability in speaker verification”, IEEE Transaction on Audio, Speech and Language, vol 16, no 5, pp 980-988 N Dehak (2009), “Discriminative and Generative Approches for Long- and Short-Term Speaker Characteristics Modeling: Application to Speaker Verification”, Ph.D thèsis, Ećole de Technologie Supérieure, Montréal Bousquet, Pierre-Michel, et al (2012), “Variance-spectra based normalization for i-vector standard and probabilistic linear discriminant analysis”, Odyssey 2012-The Speaker and Language Recognition Workshop, pp 157-164 P Matejka, O Glembek, F Castaldo, and M J Alam (2011), “Fullcovariance ubm and heavy-tailed PLDA in i-vector speaker verification”, in International Conference on Acoustics, pp 4828-4831 Filip D Jevtić, Rade T Živaljević (2020), “Generalized Tonnetz and discrete Abel-Jacobi map”, Topological Methods in Nonlinear Analysis, vol 57, no 2, pp 547-567, https://doi.org/10.12775/TMNA.2020.049 Cho, Taemin, and Juan P Bello (2013), “On the relative importance of individual components of chord recognition systems”, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol 22, no 2, pp 477-492, 2013 Jiang, N., Grosche, P., Konz, V., & Müller, M (2011), “Analyzing chroma feature types for automated chord recognition”, In Audio Engineering Society Conference: 42nd International Conference: Semantic Audio Audio Engineering Society, pp 285-294 122 [129] Dao Thi Le Thuy, Loan Trinh Van, and Quang Nguyen Hong (2020), “Deep convolutional neural networks for emotion recognition of Vietnamese”, International Journal of Machine Learning and Computing, vol 10, no 5, pp.692-699 [130] “https://github.com/lutzroeder/netron”, [Online] [131] Keren, Gil, and Bjăorn Schuller (2016), Convolutional RNN: An enhanced model for extracting features from sequential data”, in 2016 International Joint Conference on Neural Networks (IJCNN), IEEE, pp 3412-3419 [132] Choi, Keunwoo, Gyăorgy Fazekas, Mark Sandler, and Kyunghyun Cho (2017), “Convolutional recurrent neural networks for music classification”, in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE, pp 2392-2396 [133] Duyu Tang, Bing Qin, and Ting Liu (2015), “Document modeling with gated recurrent neural network for sentiment classification”, in Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pp 1422-1432 [134] Zhen Zuo, Bing Shuai, Gang Wang, Xiao Liu, Xingxing Wang, Bing Wang, and Yushi Chen (2015), “Convolutional recurrent neural networks: Learning spatial dependencies for image representation”, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp 1826 [135] Sigtia, Siddharth, Emmanouil Benetos, and Simon Dixon (2016), “An end-toend neural network for polyphonic piano music transcription”, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol 24, no 5, pp 927-939 [136] “https://www.analyticsvidhya.com/blog/2020/09/overfitting-in-cnn-showtotreat-overfitting-in-convolutional-neural-networks”, [Online] [137] “https://www.analyticsvidhya.com/blog/2020/06/auc-roc-curve-machinelearning/”, [Online] [138] S S Stevens, J Volkmann, and E B Newman (1937), “A scale for the measurement of the psychological magnitude pitch”, Journal of the acoustical society of America 8, no 3, pp 185-190 123

Ngày đăng: 29/09/2023, 17:25