LỜICAMĐOAN Tơixincamđoantấtcảcácnộidungtrongluậnán“ĐịnhdanhtựđộngmộtsốlànđiệudâncaViệtNam” làcơngtrìnhnghiêncứucủacánhântơi.Cácsốliệu,kếtquảtrongluậnánlàtrungthựcvàchưatừngđượctácgiảkháccơngbố.Việctham khảocácnguồntàiliệuđãđượcthựchiệntríchdẫnđầyđủvàghinguồntàiliệuthamkhảođúngquyđịnh HàNợi,ngày25tháng8năm2023 TÁCGIẢ LUẬNÁN GIÁOVIÊNHƯỚNG DẪN PGS.TS.TrịnhVănLoan ChuBáThành LỜICẢMƠN Để hoàn thành Luận án này, nỗ lực, cố gắng thân, tơi cịn nhậnđược hỗ trợ, giúp đỡ tận tình từ thầy hướng dẫn; thầy Khoa Kỹ thuậtmáytínhTrườngCơngnghệThơngtin&Truyềnthơng,ĐạihọcBáchkhoaHàNộivàcácthànhviêntronggia đình.Tơimuốnbàytỏlịngbiếtơncủamìnhđếncácthầycơ,bạnbèvàđồngnghiệpđãgiúpđỡtơiđểc óđược kếtquảnày Trước hết, xin gửi lời cảm ơn sâu sắc đến thầy hướng dẫn PGS.TS TrịnhVăn Loan Thầy ln tận tình giúp đỡ, bảo, đưa lời khuyên bổ ích,những định hướng khoa học phương pháp nghiên cứu quý báu để tơi cóthểtriểnkhaivàhồnthànhluậnánnày Tiếpđến,tơixintrântrọngcảmơnĐạihọcBáchkhoaHàNội;TrườngCơngnghệThơng tin & Truyền thơng;KhoaKỹthuậtmáytínhđãtạođiềukiệntốtnhấtchotơitrongthờigianhọctập.Tơicũngxinchânthànhcảmơncácđồngnghiệptại KhoaCơngnghệThơngtinTrườngĐạihọcSưphạmKỹthuậtHưngn đãhỗtrợ,giúpđỡvàđộngviêntơitrongsuốtthờigianhọctập Cuốicùng,tơixinbàytỏlịngbiếtơnsâusắcđếnchamẹ,anh,chị,emvàgiađìnhđãlnởbênđểđộ ngviên,giúpđỡtơivượtquacáckhókhăn,trởngạiđểhồnthànhqtrìnhhọc tậpcủamình Xintrântrọngcảm ơn! MỤCLỤC DANHMỤCCÁCKÝ HIỆUVÀCHỮ VIẾT TẮT DANHMỤCCÁC BẢNG DANHMỤCCÁCHÌNH ẢNH,ĐỒTHỊ MỞĐẦU 12 Chương TỔNG QUAN VỀ ÂM NHẠC VÀ PHÂN LỚP ÂM NHẠC THEO THỂLOẠI 16 1.1 Âmthanh,âmnhạc 16 1.1.1 Kháiniệmâmthanh,âmnhạc .16 1.1.2 Một sốyếutốcơ bảncủaâmnhạc .17 1.2 Mộtsốđặctrưngtríchchọntừtínhiệuâmnhạc 18 1.2.1 Đặctrưngthống kê 18 1.2.2 Đặctrưngtrong miềnthời gian 19 1.2.3 Đặctrưngphổ 22 1.3 Mộtsốthểloạiâmnhạcphổbiếntrênthếgiới .25 1.4 ĐôinétvềnhạcdâncaViệtNam 26 1.4.1 Đặcđiểmâm nhạc,lờicatrongChèo 27 1.4.2 Đặcđiểmâmnhạc,lờicatrongQuanhọ 28 1.4.3 Đặcđiểmkỹ thuậthátChèo vàQuan họ 30 1.5 Phânlớpâmnhạctheothểloại 34 1.6 Mộtsốbộdữliệuâmnhạctheothểloạiđiểnhình 35 1.7 Mộtsốmơhìnhdùngtrongphânlớpthểloạiâmnhạc 35 1.7.1 BộphânlớpSVM(SupportVectorMachine) 35 1.7.2 BộphânlớpGMM(GaussianMixtureModel) 36 1.7.3 Mạngnơ-ronnhântạo(ArtificialNeuralNetwork) 38 1.8 Mộtsốkếtquảnghiêncứuphânlớpthểloạiâmnhạctrongvàngồinước 48 1.8.1 Tình hìnhnghiên cứungồinước 48 1.8.2 Tình hìnhnghiên cứutrongnước .54 1.9 Kếtchương1 55 Chương2.ĐỊNHDANHMỘTSỐLÀNĐIỆUDÂNCAVIỆTNAM 56 2.1 BộdữliệuâmnhạcChèovàQuanhọ 56 2.2 Mộtsốphươngpháptăngcườngdữliệu .58 2.2.1 Chia đôicácfile liệuâmnhạc 59 2.2.2 Tạotiếngvọng(creatingecho) 59 2.2.3 Cộngnhiễu trắng (addingwhitenoise) 59 2.2.4 Thayđổicaođộ(changingpitch) 60 2.3 Phânlớp,địnhdanhmộtsốlànđiệudâncaViệtNamdùngmộtsốthuậttoánhọcmáytruy ềnthống 61 2.3.1 Trườnghợp1:ĐịnhdanhmộtsốlànđiệuQuanhọdùngmộtsốmơhìnhtruyềnt hốngthuộc bộcơngcụWEKA 61 2.3.2 Trường hợp2:ĐịnhdanhmộtsốlànđiệuQuanhọdùngGMM .64 2.3.3 Trường hợp3: Phânlớp,địnhdanhChèo vàQuanhọ 66 2.3.4 Trường hợp4: PhânlớpChèovàQuanhọ 69 2.3.5 Trường hợp5: ĐịnhdanhChèohoặcQuanhọ .72 2.3.6 Trường hợp6: ĐịnhdanhChèovàQuanhọdùngi-vector .75 2.4 PhânlớpvàđịnhdanhmộtsốlànđiệudâncaViệtNamdùnghọcsâu .77 2.4.1 Bộdữ liệuvàthamsốsửdụng .77 2.4.2 Cácmạngnơ-ronsâudùngtrongnghiêncứu 78 2.4.3 Kếtquả nghiêncứuphânlớpvàđịnhdanh 84 2.5 Kếtchương2 88 Chương PHÂN LỚP THỂ LOẠI ÂM NHẠC TRÊN BỘ DỮ LIỆU NHẠC VIỆT,GTZANVÀFMADÙNGHỌC SÂU 89 3.1 CácđộđoAccuracy,Precision,Recallvàf1-score 89 3.2 PhânlớpnhạcViệtdùngRAN(ResidualAttentionNetwork) 90 3.3 Nghiênc ứ u p h â n l p t h ể l o i â m n h c đ ố i v i c c b ộ d ữ l i ệ u G T Z A N v FMA_SMALL .93 3.3.1 NghiêncứuphânlớpđốivớiGTZAN 93 3.3.3NghiêncứuphânlớpđốivớiFMA_SMALL .102 3.4 Kếtchương3 108 KẾTLUẬNVÀĐỊNHHƯỚNGPHÁTTRIỂN 110 Kếtluận 110 Địnhhướngpháttriển 111 DANHMỤCCÁCCƠNGTRÌNHĐÃCƠNGBỐCỦALUẬNÁN 113 TÀILIỆUTHAMKHẢO 114 DANHMỤC CÁCKÝ HIỆU VÀCHỮVIẾT TẮT Chữviếttắt Chữviếtđầyđủ Ýnghĩa ANN ArtificialNeuralNetwork Mạngnơ-ronnhân tạo CNN ConvolutionalNeuralNetworks Mạngnơ-ronlấychập CRNN CSN ConvolutionalRecurrentNeuralNet Mạngnơ-ronhồi quylấychập works CapsuleNeural Networks Mạngnơ-ronviên nang DeepConvolutionalNeuralNe tworks Mạngnơ-ronlấychập sâu ELU ExponentialLinear Unit Đơnvịkíchhoạttuyếntínhvàhàm mũ GMM GaussianMixtureModel MơhìnhhỗnhợpGauss k-NN k-NearestNeighbor MFCC MelFrequencyCepstralCo efficients Cáchệsố CepstrumtheothangtầnsốMel MGC MusicGenreClassification Phânlớpthểloạiâmnhạc MIR MusicInformationRetrieval Truyxuấtthôngtinâmnhạc ReLU RectifiedLinearUnit Đơnvịchỉnhlưutuyếntính SMO SequentialMinimal Optimization Thuậttốntốiưuhóatốithiểutuầnt ự SVM SupportVectorMachine Máyvector hỗtrợ UBM UniversalBackgroundModel Mơhìnhnềnphổ qt DFT DiscreteFourierTransforms BiếnđổiFourierrờirạc MSE MeanSquareforError Trungbìnhbìnhphươnglỗi EM ExpectationMaximization Cựcđạihóakỳvọng ML Maximum-Likelihood Cựcđạikhảhiện DCNN Bộphânlớpk-lánggiềnggầnnhất DANHMỤC CÁCBẢNG Bảng1.1 Sosánh giữacáckỹthuậthátChèovàhátQuanhọ(nguồn: [77]) 30 Bảng1.2 Mộtsốbộdữliệuâmnhạcđiểnhình theothểloại .35 Bảng1.3 Mộtsốhàmkíchhoạtthườngdùng (nguồn:[89]) 39 Bảng1.4Thờigianvàđịa điểmtổchứcISMIRhàngnăm(nguồn:[38]) 49 Bảng1.5TómtắtmộtsốkếtquảnghiêncứunổibậtvềMGCtrênGTZAN 50 Bảng1.6 Tó m tắ t m ộ t số k ế tq uản g h i ên c ứu nổ ib ậ tv ề MG C t rênF MA_ SMAL L 52B ảng2.1Kýhiệucác lànđiệuChèovàQuanhọdùngchobộdữ liệu .57 Bảng2.2 Cáctrườnghợpphânlớpvàđịnhdanh 61 Bảng2.3Tỷlệ(%)địnhdanhđúng dùng SMO 62 Bảng2.4Tỷlệ(%)địnhdanhđúngdùng MultiLayerPerceptron 63 Bảng2.5Tỷlệ(%) địnhdanhđúngdùngMultiClassClassifier 63 Bảng2.6Tổnghợpkết quảđịnhdanh 63 Bảng2.7 Matrậnnhầmlẫnvới M=16trên2bộthamsố 64 Bảng2.8Matrậnnhầmlẫnvới M=8192trên2bộthamsố 65 Bảng2.9 Matrậnnhầmlẫntrong địnhdanhlànđiệuChèovới M=16 .67 Bảng2.10 Matrận nhầmlẫntrong địnhdanhlànđiệuQuanhọ vớiM =16 .67 Bảng2.11 Matrận nhầmlẫntrong địnhdanhlànđiệuChèovới M=4096 68 Bảng2.12 Matrận nhầmlẫntrong địnhdanhlànđiệuQuanhọvớiM =4096 68 Bảng2.13 Cácbộ tham sốsửdụng 70 Bảng2.14 Cácbộtham sốdùngtrongnghiêncứu 78 Bảng2.15 CácthamsốcủaCNNdùngtrongtrườnghợpphânlớp 79 Bảng2.16aCácthamsốcủaLSTM-1dùngtrongđịnhdanh 80 Bảng2.16bCácthamsốcủaLSTM-2dùngtrongđịnhdanh 81 Bảng2.17aCácthamsốcủaCRNN-1dùngtrongphânlớp 83 Bảng2.17bCácthamsốcủaCRNN-2dùngtrongđịnhdanh 83 Bảng2.18TổnghợpkếtquảphânlớpChèovàQuanhọvới2bộthamsố 85 Bảng2.19 Tổnghợpkếtquảđịnh danhtrênbộdữliệuQuanhọ 85 Bảng2.20 Tổnghợpkếtquảđịnh danhtrênbộdữliệuChèo 86 Bảng 2.21 Chênh lệch tỷ lệ định danh CNN so với mơ hình cịn lại 87Bảng3.1 Độchính xáccủa phânloạiảnhphổtrêntậpxácthực .92 Bảng3.2 Độchính xáccủatậpxácthựccho mỗilầnhuấn luyệnvớifold_ext 92 Bảng3.3 Độchính xáccủatậpxácthựctrênảnhphổvàtrênfilêmthanh 93 Bảng3.4 Sốlượngtừngthểloạinhạctrongbộdữ liệuGTZAN[24] 94 Bảng3.5 CấuhìnhcủaCNNvới 300thamsố 94 Bảng3.6 CấuhìnhcủaLSTMvới300thamsố .95 Bảng3.7 CấuhìnhcủaGRUvới 300thamsố 95 Bảng3.8 CấuhìnhcủaCSNvới 300thamsố .96 Bảng3.9 Môtảcácbộdữliệuđượcsửdụngtrongnghiên cứu 96 Bảng3.10: Kếtquảphânlớptrêntậpdữ liệu S2n1 .97 Bảng3 11 T r u n g b ì n h đ ộ ch í n h x c , A U C c ủ a L S T M , C N N , G R U ,C SN t r ê n S 100 Bảng3.12: Kếtquảphânlớptrêntậpdữ liệu S8vàS9 .100 Bảng3.13: Kếtquảphânlớptrêntậpdữ liệu S0,S1,S2n2,S2n3 101 Bảng3.14: Kếtquảphânlớptrêntậpdữ liệu S2n2vàS2n3dùngGRU 101 Bảng3.15 Diễngiảicácbộdữliệusửdụng 103 Bảng3.16: Kếtquảphânlớptrêntậpdữ liệu S4fHvàS4fLdùngDensetNet1691 Bảng3.17: Kếtquảphânlớptrêntậpdữ liệu S4fL 104 Bảng3.18:Kếtquảphânlớptrêntậpdữ liệu S3e,S2và S1 106 Bảng3.19: Kếtquảphânlớptrêntậpdữ liệu S3s,S5s vàS5t .107 Bảng3.20Thờigiantrungbìnhđểhuấnluyệnmộtepochvàthờigianđểhàmtổnthấthộitụ 108 DANHMỤC CÁCHÌNH ẢNH,ĐỒTHỊ Hình1.1MinhhoạphânphốiSkewness .19 Hình1.2Minh hoạphânbốKurtosis 19 Hình1.3NănglượngvàRMScủamộtlànđiệuChèo 20 Hình1.4ZCRcủamột lànđiệuChèo 20 Hình1.5Cácbướctínhcáchệsố MFCC .21 Hình1.6CáchệsốMFCCvàcácđạohàm MFCCcủamộtlànđiệuChèo 22 Hình1.7SpectralCentroidcủamộtlànđiệuChèovàQuanhọ 22 Hình1.8SpectralContrastcủamột lànđiệuQuanhọvà Chèo .23 Hình1.9SpectralRolloffcủamột lànđiệu ChèovàQuanhọ .23 Hình1.10SpectralBandwidthcủamộtlànđiệuChèovàQuanhọ 24 Hình1.11SpectralFluxcủa mộtlànđiệu Quanhọ .24 Hình1.12Sơđồchungchohệthốngphânlớp thểloạiâm nhạc(nguồn:[22]) 34 Hình1.13Hình ảnhdữliệu,đườngbiênvàlềtrongSVM 36 Hình1.14PhânbốGaussvớimộtsốgiátrịcủa𝜇và𝜎 36 Hình1.15Phân bốGaussđathểhiệnlàtổhợpcủa3phânbốGauss đơnthểhiện37 Hình1.16aCấu trúccủamộtnơ-ronsinhhọc(nguồn:[88]) 38 Hình1.16bCấu trúccủamộtnơ-ronnhântạo 38 Hình1.17Minhhoạcáchlấychậpkhiápbộlọc lênmatrậnđầuvào 41 Hình1.18Minh hoạthaotácpoolingsửdụngmax-pooling 42 Hình1.19Gated RecurrentUnit(nguồn:[103]) 43 Hình1.20SơđồcủaResidualBlockvới hàmReLU .44 Hình1 A t te n ti o n mo d u l e l s ự k ế t h ợ p c ủ a S o f t m a sk b r a n c h v Tr u n k b nc h 44 Hình1.22Soft maskbranchsửdụng trongAttentionmodule .45 Hình1.23KiếntrúcDenseNetvới3khốiDense 46 Hình1.24Mạng CSN gồmMcapsuleởmức caovàNcapsuleởmứcthấp 47 Hình1.25D ng sóngvàphổ Mel tươngứ n g chomộttrích đoạ n củafile blues.00011.wa vcủathểloạinhạcBlue 48 Hình1.26Thốngkêsốlượngbàibáocótríchdẫnđến[24] .50 Hình2.1MinhhọaviệcchiamộtfilêmthanhthànhhainửacùngthểloạivàphổMeltươn gứng 59 Hình2.2Tiếngvọngđượcquansát ởphầncuốicủafileâmthanh 59 Hình2.3CáchtínhSNRcủamộtfilevàgiátrịtrungbìnhcủaSNR 60 Hình2.4Minh hoạviệcdịchchuyểncaođộlênnửacungvà mộtcung 60 Hình2.5K ết quảđ ị nhda nhdùngG MM vớ isốthànhphầnGauss M=16 819265 Hình2.6Tỷlệnhậndạngđúngtrongphânlớpsơbộ .66 Hình2.7TổnghợpkếtquảphânlớpchitiếtvớiM=164096 69 Hình2.8SơđồphânlớpChèovàQuanhọtrêntoànbộtậpdữ liệu 70 Hình2.9Tỷlệphânlớptươngứngvới4bộthamsốtrêndữ liệuQuanhọ 70 Hình2.10Trungbìnhtỷlệphânlớpđúngvới 4bộtham sốtrêndữliệuQuanhọ7 Hình2.11Tỷlệphânlớptươngứngvới4bộthamsốtrêndữliệuChèo .71 Hình2.12Trungbìnhtỷlệphânlớpđúngvới4bộtham sốtrêndữliệuChèo 72 Hình2.13Sơđồđịnh danhChèovàQuanhọdựatrêntríchđoạnngắn .72 Hình2.14Tỷlệđ ị n hdanhđúngcủacáctríchđoạnChèoứngvới3giátrịcủaM.73 Hình2.15Tỷlệđịnhdanhđúngcủacáctrích đoạnQuanhọvới 3giátrịcủaM 75 Hình2.16SosánhtỷlệđịnhdanhđúngtrungbìnhcủaPLDA,SphNormPLDAsửdụngivectorvới GMMsửdụngbộthamsốS1trêntập dữliệuChèo 76 Hình2.17SosánhtỷlệđịnhdanhđúngtrungbìnhcủaPLDA,SphNormPLDAsửdụngivectorvớiGMMsửdụngbộthamsốS1trêntập dữliệuQuanhọ 76 Hình2.18Cấuhìnhcủamơhình CNNvới157thamsốdùngtrongđịnhdanh 80 Hình2.19CấuhìnhcủaLSTMvới183 tham sốdùngtrongđịnhdanh 81 Hình2.20CấuhìnhcủaCRNNvới157 tham sốdùngtrongđịnhdanh 82 Hình2.21Phân chiadữliệudùngchohuấnluyện,xácthựcvànhận dạng 84 Hình2.22Tổnthấtcủađộchínhxáchuấnluyện,xácthựctrongphânlớpvàđịnhdanh biếnthiêntheoepoch 87 Hình3.1Sốlượngfile tươngứngvớimỗithể loạitrongbộdữliệu 90 Hình3.2Sốlượngảnhphổtrongtậpdữliệuhuấnluyện 91 Hình3.3KiếntrúccủaRANdùngtrongphânlớpthểloạinhạcViệt 91 Hình 3.4Trungbìnhđộchínhxácphânlớp củacácmơhình LSTM,CNN,GRUvàCSNtrên bộdữliệu S2n1 98 Hình3.5MơhìnhLSTM:TrungbìnhcựcđạivàcựctiểucủaPrecision,Recallvàf1scorecủa10thểloại nhạctrong tậpdữliệu S7 98 Hình 3.6Mô hình CNN: Trung bình cực đại cực tiểu Precision, Recall f1scorecủa10thểloại nhạctrongtậpdữliệuS7 .99 Hình 3.7Mơ hình GRU: Trung bình cực đại cực tiểu Precision, Recall f1scorecủa10thểloại nhạctrongtậpdữliệuS7 .99 Hình3.8MơhìnhCSN:TrungbìnhcựcđạivàcựctiểucủaPrecision,Recallvàf1scorecủa10thểloại nhạctrongtậpdữliệuS7 .99 Hình 3.9So sánhđộchính xácphânlớp củaLSTM, CNN,GRU vàCSN trênbộdữliệuS7;GRUvàCSNtrênbộdữliệu S8vàS9 101 Hình3.10Độchínhxácphânlớp củaGRUtrênnhữngtậpdữliệukhácnhau 102