1. Trang chủ
  2. » Luận Văn - Báo Cáo

Định danh tự động một số làn điệu dân ca việt nam

125 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

LỜICAMĐOAN Tơixincamđoantấtcảcácnộidungtrongluậnán“ĐịnhdanhtựđộngmộtsốlànđiệudâncaViệtNam” làcơngtrìnhnghiêncứucủacánhântơi.Cácsốliệu,kếtquảtrongluậnánlàtrungthựcvàchưatừngđượctácgiảkháccơngbố.Việctham khảocácnguồntàiliệuđãđượcthựchiệntríchdẫnđầyđủvàghinguồntàiliệuthamkhảođúngquyđịnh HàNợi,ngày25tháng8năm2023 TÁCGIẢ LUẬNÁN GIÁOVIÊNHƯỚNG DẪN PGS.TS.TrịnhVănLoan ChuBáThành LỜICẢMƠN Để hoàn thành Luận án này, nỗ lực, cố gắng thân, tơi cịn nhậnđược hỗ trợ, giúp đỡ tận tình từ thầy hướng dẫn; thầy Khoa Kỹ thuậtmáytínhTrườngCơngnghệThơngtin&Truyềnthơng,ĐạihọcBáchkhoaHàNộivàcácthànhviêntronggia đình.Tơimuốnbàytỏlịngbiếtơncủamìnhđếncácthầycơ,bạnbèvàđồngnghiệpđãgiúpđỡtơiđểc óđược kếtquảnày Trước hết, xin gửi lời cảm ơn sâu sắc đến thầy hướng dẫn PGS.TS TrịnhVăn Loan Thầy ln tận tình giúp đỡ, bảo, đưa lời khuyên bổ ích,những định hướng khoa học phương pháp nghiên cứu quý báu để tơi cóthểtriểnkhaivàhồnthànhluậnánnày Tiếpđến,tơixintrântrọngcảmơnĐạihọcBáchkhoaHàNội;TrườngCơngnghệThơng tin & Truyền thơng;KhoaKỹthuậtmáytínhđãtạođiềukiệntốtnhấtchotơitrongthờigianhọctập.Tơicũngxinchânthànhcảmơncácđồngnghiệptại KhoaCơngnghệThơngtinTrườngĐạihọcSưphạmKỹthuậtHưngn đãhỗtrợ,giúpđỡvàđộngviêntơitrongsuốtthờigianhọctập Cuốicùng,tơixinbàytỏlịngbiếtơnsâusắcđếnchamẹ,anh,chị,emvàgiađìnhđãlnởbênđểđộ ngviên,giúpđỡtơivượtquacáckhókhăn,trởngạiđểhồnthànhqtrìnhhọc tậpcủamình Xintrântrọngcảm ơn! MỤCLỤC DANHMỤCCÁCKÝ HIỆUVÀCHỮ VIẾT TẮT DANHMỤCCÁC BẢNG DANHMỤCCÁCHÌNH ẢNH,ĐỒTHỊ MỞĐẦU 12 Chương TỔNG QUAN VỀ ÂM NHẠC VÀ PHÂN LỚP ÂM NHẠC THEO THỂLOẠI 16 1.1 Âmthanh,âmnhạc 16 1.1.1 Kháiniệmâmthanh,âmnhạc .16 1.1.2 Một sốyếutốcơ bảncủaâmnhạc .17 1.2 Mộtsốđặctrưngtríchchọntừtínhiệuâmnhạc 18 1.2.1 Đặctrưngthống kê 18 1.2.2 Đặctrưngtrong miềnthời gian 19 1.2.3 Đặctrưngphổ 22 1.3 Mộtsốthểloạiâmnhạcphổbiếntrênthếgiới .25 1.4 ĐôinétvềnhạcdâncaViệtNam 26 1.4.1 Đặcđiểmâm nhạc,lờicatrongChèo 27 1.4.2 Đặcđiểmâmnhạc,lờicatrongQuanhọ 28 1.4.3 Đặcđiểmkỹ thuậthátChèo vàQuan họ 30 1.5 Phânlớpâmnhạctheothểloại 34 1.6 Mộtsốbộdữliệuâmnhạctheothểloạiđiểnhình 35 1.7 Mộtsốmơhìnhdùngtrongphânlớpthểloạiâmnhạc 35 1.7.1 BộphânlớpSVM(SupportVectorMachine) 35 1.7.2 BộphânlớpGMM(GaussianMixtureModel) 36 1.7.3 Mạngnơ-ronnhântạo(ArtificialNeuralNetwork) 38 1.8 Mộtsốkếtquảnghiêncứuphânlớpthểloạiâmnhạctrongvàngồinước 48 1.8.1 Tình hìnhnghiên cứungồinước 48 1.8.2 Tình hìnhnghiên cứutrongnước .54 1.9 Kếtchương1 55 Chương2.ĐỊNHDANHMỘTSỐLÀNĐIỆUDÂNCAVIỆTNAM 56 2.1 BộdữliệuâmnhạcChèovàQuanhọ 56 2.2 Mộtsốphươngpháptăngcườngdữliệu .58 2.2.1 Chia đôicácfile liệuâmnhạc 59 2.2.2 Tạotiếngvọng(creatingecho) 59 2.2.3 Cộngnhiễu trắng (addingwhitenoise) 59 2.2.4 Thayđổicaođộ(changingpitch) 60 2.3 Phânlớp,địnhdanhmộtsốlànđiệudâncaViệtNamdùngmộtsốthuậttoánhọcmáytruy ềnthống 61 2.3.1 Trườnghợp1:ĐịnhdanhmộtsốlànđiệuQuanhọdùngmộtsốmơhìnhtruyềnt hốngthuộc bộcơngcụWEKA 61 2.3.2 Trường hợp2:ĐịnhdanhmộtsốlànđiệuQuanhọdùngGMM .64 2.3.3 Trường hợp3: Phânlớp,địnhdanhChèo vàQuanhọ 66 2.3.4 Trường hợp4: PhânlớpChèovàQuanhọ 69 2.3.5 Trường hợp5: ĐịnhdanhChèohoặcQuanhọ .72 2.3.6 Trường hợp6: ĐịnhdanhChèovàQuanhọdùngi-vector .75 2.4 PhânlớpvàđịnhdanhmộtsốlànđiệudâncaViệtNamdùnghọcsâu .77 2.4.1 Bộdữ liệuvàthamsốsửdụng .77 2.4.2 Cácmạngnơ-ronsâudùngtrongnghiêncứu 78 2.4.3 Kếtquả nghiêncứuphânlớpvàđịnhdanh 84 2.5 Kếtchương2 88 Chương PHÂN LỚP THỂ LOẠI ÂM NHẠC TRÊN BỘ DỮ LIỆU NHẠC VIỆT,GTZANVÀFMADÙNGHỌC SÂU 89 3.1 CácđộđoAccuracy,Precision,Recallvàf1-score 89 3.2 PhânlớpnhạcViệtdùngRAN(ResidualAttentionNetwork) 90 3.3 Nghiênc ứ u p h â n l p t h ể l o i â m n h c đ ố i v i c c b ộ d ữ l i ệ u G T Z A N v FMA_SMALL .93 3.3.1 NghiêncứuphânlớpđốivớiGTZAN 93 3.3.3NghiêncứuphânlớpđốivớiFMA_SMALL .102 3.4 Kếtchương3 108 KẾTLUẬNVÀĐỊNHHƯỚNGPHÁTTRIỂN 110 Kếtluận 110 Địnhhướngpháttriển 111 DANHMỤCCÁCCƠNGTRÌNHĐÃCƠNGBỐCỦALUẬNÁN 113 TÀILIỆUTHAMKHẢO 114 DANHMỤC CÁCKÝ HIỆU VÀCHỮVIẾT TẮT Chữviếttắt Chữviếtđầyđủ Ýnghĩa ANN ArtificialNeuralNetwork Mạngnơ-ronnhân tạo CNN ConvolutionalNeuralNetworks Mạngnơ-ronlấychập CRNN CSN ConvolutionalRecurrentNeuralNet Mạngnơ-ronhồi quylấychập works CapsuleNeural Networks Mạngnơ-ronviên nang DeepConvolutionalNeuralNe tworks Mạngnơ-ronlấychập sâu ELU ExponentialLinear Unit Đơnvịkíchhoạttuyếntínhvàhàm mũ GMM GaussianMixtureModel MơhìnhhỗnhợpGauss k-NN k-NearestNeighbor MFCC MelFrequencyCepstralCo efficients Cáchệsố CepstrumtheothangtầnsốMel MGC MusicGenreClassification Phânlớpthểloạiâmnhạc MIR MusicInformationRetrieval Truyxuấtthôngtinâmnhạc ReLU RectifiedLinearUnit Đơnvịchỉnhlưutuyếntính SMO SequentialMinimal Optimization Thuậttốntốiưuhóatốithiểutuầnt ự SVM SupportVectorMachine Máyvector hỗtrợ UBM UniversalBackgroundModel Mơhìnhnềnphổ qt DFT DiscreteFourierTransforms BiếnđổiFourierrờirạc MSE MeanSquareforError Trungbìnhbìnhphươnglỗi EM ExpectationMaximization Cựcđạihóakỳvọng ML Maximum-Likelihood Cựcđạikhảhiện DCNN Bộphânlớpk-lánggiềnggầnnhất DANHMỤC CÁCBẢNG Bảng1.1 Sosánh giữacáckỹthuậthátChèovàhátQuanhọ(nguồn: [77]) 30 Bảng1.2 Mộtsốbộdữliệuâmnhạcđiểnhình theothểloại .35 Bảng1.3 Mộtsốhàmkíchhoạtthườngdùng (nguồn:[89]) 39 Bảng1.4Thờigianvàđịa điểmtổchứcISMIRhàngnăm(nguồn:[38]) 49 Bảng1.5TómtắtmộtsốkếtquảnghiêncứunổibậtvềMGCtrênGTZAN 50 Bảng1.6 Tó m tắ t m ộ t số k ế tq uản g h i ên c ứu nổ ib ậ tv ề MG C t rênF MA_ SMAL L 52B ảng2.1Kýhiệucác lànđiệuChèovàQuanhọdùngchobộdữ liệu .57 Bảng2.2 Cáctrườnghợpphânlớpvàđịnhdanh 61 Bảng2.3Tỷlệ(%)địnhdanhđúng dùng SMO 62 Bảng2.4Tỷlệ(%)địnhdanhđúngdùng MultiLayerPerceptron 63 Bảng2.5Tỷlệ(%) địnhdanhđúngdùngMultiClassClassifier 63 Bảng2.6Tổnghợpkết quảđịnhdanh 63 Bảng2.7 Matrậnnhầmlẫnvới M=16trên2bộthamsố 64 Bảng2.8Matrậnnhầmlẫnvới M=8192trên2bộthamsố 65 Bảng2.9 Matrậnnhầmlẫntrong địnhdanhlànđiệuChèovới M=16 .67 Bảng2.10 Matrận nhầmlẫntrong địnhdanhlànđiệuQuanhọ vớiM =16 .67 Bảng2.11 Matrận nhầmlẫntrong địnhdanhlànđiệuChèovới M=4096 68 Bảng2.12 Matrận nhầmlẫntrong địnhdanhlànđiệuQuanhọvớiM =4096 68 Bảng2.13 Cácbộ tham sốsửdụng 70 Bảng2.14 Cácbộtham sốdùngtrongnghiêncứu 78 Bảng2.15 CácthamsốcủaCNNdùngtrongtrườnghợpphânlớp 79 Bảng2.16aCácthamsốcủaLSTM-1dùngtrongđịnhdanh 80 Bảng2.16bCácthamsốcủaLSTM-2dùngtrongđịnhdanh 81 Bảng2.17aCácthamsốcủaCRNN-1dùngtrongphânlớp 83 Bảng2.17bCácthamsốcủaCRNN-2dùngtrongđịnhdanh 83 Bảng2.18TổnghợpkếtquảphânlớpChèovàQuanhọvới2bộthamsố 85 Bảng2.19 Tổnghợpkếtquảđịnh danhtrênbộdữliệuQuanhọ 85 Bảng2.20 Tổnghợpkếtquảđịnh danhtrênbộdữliệuChèo 86 Bảng 2.21 Chênh lệch tỷ lệ định danh CNN so với mơ hình cịn lại 87Bảng3.1 Độchính xáccủa phânloạiảnhphổtrêntậpxácthực .92 Bảng3.2 Độchính xáccủatậpxácthựccho mỗilầnhuấn luyệnvớifold_ext 92 Bảng3.3 Độchính xáccủatậpxácthựctrênảnhphổvàtrênfilêmthanh 93 Bảng3.4 Sốlượngtừngthểloạinhạctrongbộdữ liệuGTZAN[24] 94 Bảng3.5 CấuhìnhcủaCNNvới 300thamsố 94 Bảng3.6 CấuhìnhcủaLSTMvới300thamsố .95 Bảng3.7 CấuhìnhcủaGRUvới 300thamsố 95 Bảng3.8 CấuhìnhcủaCSNvới 300thamsố .96 Bảng3.9 Môtảcácbộdữliệuđượcsửdụngtrongnghiên cứu 96 Bảng3.10: Kếtquảphânlớptrêntậpdữ liệu S2n1 .97 Bảng3 11 T r u n g b ì n h đ ộ ch í n h x c , A U C c ủ a L S T M , C N N , G R U ,C SN t r ê n S 100 Bảng3.12: Kếtquảphânlớptrêntậpdữ liệu S8vàS9 .100 Bảng3.13: Kếtquảphânlớptrêntậpdữ liệu S0,S1,S2n2,S2n3 101 Bảng3.14: Kếtquảphânlớptrêntậpdữ liệu S2n2vàS2n3dùngGRU 101 Bảng3.15 Diễngiảicácbộdữliệusửdụng 103 Bảng3.16: Kếtquảphânlớptrêntậpdữ liệu S4fHvàS4fLdùngDensetNet1691 Bảng3.17: Kếtquảphânlớptrêntậpdữ liệu S4fL 104 Bảng3.18:Kếtquảphânlớptrêntậpdữ liệu S3e,S2và S1 106 Bảng3.19: Kếtquảphânlớptrêntậpdữ liệu S3s,S5s vàS5t .107 Bảng3.20Thờigiantrungbìnhđểhuấnluyệnmộtepochvàthờigianđểhàmtổnthấthộitụ 108 DANHMỤC CÁCHÌNH ẢNH,ĐỒTHỊ Hình1.1MinhhoạphânphốiSkewness .19 Hình1.2Minh hoạphânbốKurtosis 19 Hình1.3NănglượngvàRMScủamộtlànđiệuChèo 20 Hình1.4ZCRcủamột lànđiệuChèo 20 Hình1.5Cácbướctínhcáchệsố MFCC .21 Hình1.6CáchệsốMFCCvàcácđạohàm MFCCcủamộtlànđiệuChèo 22 Hình1.7SpectralCentroidcủamộtlànđiệuChèovàQuanhọ 22 Hình1.8SpectralContrastcủamột lànđiệuQuanhọvà Chèo .23 Hình1.9SpectralRolloffcủamột lànđiệu ChèovàQuanhọ .23 Hình1.10SpectralBandwidthcủamộtlànđiệuChèovàQuanhọ 24 Hình1.11SpectralFluxcủa mộtlànđiệu Quanhọ .24 Hình1.12Sơđồchungchohệthốngphânlớp thểloạiâm nhạc(nguồn:[22]) 34 Hình1.13Hình ảnhdữliệu,đườngbiênvàlềtrongSVM 36 Hình1.14PhânbốGaussvớimộtsốgiátrịcủa𝜇và𝜎 36 Hình1.15Phân bốGaussđathểhiệnlàtổhợpcủa3phânbốGauss đơnthểhiện37 Hình1.16aCấu trúccủamộtnơ-ronsinhhọc(nguồn:[88]) 38 Hình1.16bCấu trúccủamộtnơ-ronnhântạo 38 Hình1.17Minhhoạcáchlấychậpkhiápbộlọc lênmatrậnđầuvào 41 Hình1.18Minh hoạthaotácpoolingsửdụngmax-pooling 42 Hình1.19Gated RecurrentUnit(nguồn:[103]) 43 Hình1.20SơđồcủaResidualBlockvới hàmReLU .44 Hình1 A t te n ti o n mo d u l e l s ự k ế t h ợ p c ủ a S o f t m a sk b r a n c h v Tr u n k b nc h 44 Hình1.22Soft maskbranchsửdụng trongAttentionmodule .45 Hình1.23KiếntrúcDenseNetvới3khốiDense 46 Hình1.24Mạng CSN gồmMcapsuleởmức caovàNcapsuleởmứcthấp 47 Hình1.25D ng sóngvàphổ Mel tươngứ n g chomộttrích đoạ n củafile blues.00011.wa vcủathểloạinhạcBlue 48 Hình1.26Thốngkêsốlượngbàibáocótríchdẫnđến[24] .50 Hình2.1MinhhọaviệcchiamộtfilêmthanhthànhhainửacùngthểloạivàphổMeltươn gứng 59 Hình2.2Tiếngvọngđượcquansát ởphầncuốicủafileâmthanh 59 Hình2.3CáchtínhSNRcủamộtfilevàgiátrịtrungbìnhcủaSNR 60 Hình2.4Minh hoạviệcdịchchuyểncaođộlênnửacungvà mộtcung 60 Hình2.5K ết quảđ ị nhda nhdùngG MM vớ isốthànhphầnGauss M=16 819265 Hình2.6Tỷlệnhậndạngđúngtrongphânlớpsơbộ .66 Hình2.7TổnghợpkếtquảphânlớpchitiếtvớiM=164096 69 Hình2.8SơđồphânlớpChèovàQuanhọtrêntoànbộtậpdữ liệu 70 Hình2.9Tỷlệphânlớptươngứngvới4bộthamsốtrêndữ liệuQuanhọ 70 Hình2.10Trungbìnhtỷlệphânlớpđúngvới 4bộtham sốtrêndữliệuQuanhọ7 Hình2.11Tỷlệphânlớptươngứngvới4bộthamsốtrêndữliệuChèo .71 Hình2.12Trungbìnhtỷlệphânlớpđúngvới4bộtham sốtrêndữliệuChèo 72 Hình2.13Sơđồđịnh danhChèovàQuanhọdựatrêntríchđoạnngắn .72 Hình2.14Tỷlệđ ị n hdanhđúngcủacáctríchđoạnChèoứngvới3giátrịcủaM.73 Hình2.15Tỷlệđịnhdanhđúngcủacáctrích đoạnQuanhọvới 3giátrịcủaM 75 Hình2.16SosánhtỷlệđịnhdanhđúngtrungbìnhcủaPLDA,SphNormPLDAsửdụngivectorvới GMMsửdụngbộthamsốS1trêntập dữliệuChèo 76 Hình2.17SosánhtỷlệđịnhdanhđúngtrungbìnhcủaPLDA,SphNormPLDAsửdụngivectorvớiGMMsửdụngbộthamsốS1trêntập dữliệuQuanhọ 76 Hình2.18Cấuhìnhcủamơhình CNNvới157thamsốdùngtrongđịnhdanh 80 Hình2.19CấuhìnhcủaLSTMvới183 tham sốdùngtrongđịnhdanh 81 Hình2.20CấuhìnhcủaCRNNvới157 tham sốdùngtrongđịnhdanh 82 Hình2.21Phân chiadữliệudùngchohuấnluyện,xácthựcvànhận dạng 84 Hình2.22Tổnthấtcủađộchínhxáchuấnluyện,xácthựctrongphânlớpvàđịnhdanh biếnthiêntheoepoch 87 Hình3.1Sốlượngfile tươngứngvớimỗithể loạitrongbộdữliệu 90 Hình3.2Sốlượngảnhphổtrongtậpdữliệuhuấnluyện 91 Hình3.3KiếntrúccủaRANdùngtrongphânlớpthểloạinhạcViệt 91 Hình 3.4Trungbìnhđộchínhxácphânlớp củacácmơhình LSTM,CNN,GRUvàCSNtrên bộdữliệu S2n1 98 Hình3.5MơhìnhLSTM:TrungbìnhcựcđạivàcựctiểucủaPrecision,Recallvàf1scorecủa10thểloại nhạctrong tậpdữliệu S7 98 Hình 3.6Mô hình CNN: Trung bình cực đại cực tiểu Precision, Recall f1scorecủa10thểloại nhạctrongtậpdữliệuS7 .99 Hình 3.7Mơ hình GRU: Trung bình cực đại cực tiểu Precision, Recall f1scorecủa10thểloại nhạctrongtậpdữliệuS7 .99 Hình3.8MơhìnhCSN:TrungbìnhcựcđạivàcựctiểucủaPrecision,Recallvàf1scorecủa10thểloại nhạctrongtậpdữliệuS7 .99 Hình 3.9So sánhđộchính xácphânlớp củaLSTM, CNN,GRU vàCSN trênbộdữliệuS7;GRUvàCSNtrênbộdữliệu S8vàS9 101 Hình3.10Độchínhxácphânlớp củaGRUtrênnhữngtậpdữliệukhácnhau 102

Ngày đăng: 07/11/2023, 08:44

HÌNH ẢNH LIÊN QUAN

Hình  1.7   minh   hoạ   trọng   tâm   phổ   của  một  làn  điệu   Chèo  (màu  đỏ)  và  Quan họ(màuxanh).Trọngtâmphổđượctínhnhư trong(1.10): - Định danh tự động một số làn điệu dân ca việt nam
nh 1.7 minh hoạ trọng tâm phổ của một làn điệu Chèo (màu đỏ) và Quan họ(màuxanh).Trọngtâmphổđượctínhnhư trong(1.10): (Trang 23)
Bảng 1.3 là công thứcvàđồthịcủa mộtsốhàmkíchhoạtthườngđược sử dụng. - Định danh tự động một số làn điệu dân ca việt nam
Bảng 1.3 là công thứcvàđồthịcủa mộtsốhàmkíchhoạtthườngđược sử dụng (Trang 39)
Bảng 1.5 là tóm tắt một số kết quả nghiên cứu nổi bật đã được công bố về phânlớp thể   loại   âm   nhạc   trên   bộ   dữ   liệu   GTZAN   (sắp   xếp   theo   độ   chính   xác   nhận dạnggiảmdần). - Định danh tự động một số làn điệu dân ca việt nam
Bảng 1.5 là tóm tắt một số kết quả nghiên cứu nổi bật đã được công bố về phânlớp thể loại âm nhạc trên bộ dữ liệu GTZAN (sắp xếp theo độ chính xác nhận dạnggiảmdần) (Trang 50)
Bảng   2.6   cho   thấy   kết   quả   định   danh   một   số   làn   điệu   dân   ca   quan   họ   Bắc Ninh.Trung bình tỷ lệ định danh đúng cao nhất đạt 89,0% với bộ phân lớp SMO và thấpnhấtlà71,0%vớibộphânlớpMultiClass. - Định danh tự động một số làn điệu dân ca việt nam
ng 2.6 cho thấy kết quả định danh một số làn điệu dân ca quan họ Bắc Ninh.Trung bình tỷ lệ định danh đúng cao nhất đạt 89,0% với bộ phân lớp SMO và thấpnhấtlà71,0%vớibộphânlớpMultiClass (Trang 63)
Bảng   2.7   là   ma   trận   nhầm   lẫn   đối   với?=16cho   hai   bộ   tham   số.   Trong trườnghợpsửdụngbộthamsốthứnhất,tỷlệđịnhdanhđúngtrungbìnhđạt65,0%.Hailànđiệu“b” - Định danh tự động một số làn điệu dân ca việt nam
ng 2.7 là ma trận nhầm lẫn đối với?=16cho hai bộ tham số. Trong trườnghợpsửdụngbộthamsốthứnhất,tỷlệđịnhdanhđúngtrungbìnhđạt65,0%.Hailànđiệu“b” (Trang 64)
Bảng 2.8 là ma trận nhầm lẫn với giá trị lớn nhất củaM= 8192 cho hai bộ thamsố. - Định danh tự động một số làn điệu dân ca việt nam
Bảng 2.8 là ma trận nhầm lẫn với giá trị lớn nhất củaM= 8192 cho hai bộ thamsố (Trang 65)
Bảng 2.10 là ma trận nhầm lẫn khi định danh làn điệu Quan họ với giá trịM= - Định danh tự động một số làn điệu dân ca việt nam
Bảng 2.10 là ma trận nhầm lẫn khi định danh làn điệu Quan họ với giá trịM= (Trang 68)
Bảng 2.12 là ma trận nhầm lẫn khi định danh làn điệu Quan họ với số thành phầnGaussM=4096.Cónhiềulànđiệuđạttỷlệđịnhdanhđúng100%nhưQH_CVGCTQ,Q H _ D B B M C G , Q H _ D C S C , Q H _ N M K N , Q H _ T E T C L v à - Định danh tự động một số làn điệu dân ca việt nam
Bảng 2.12 là ma trận nhầm lẫn khi định danh làn điệu Quan họ với số thành phầnGaussM=4096.Cónhiềulànđiệuđạttỷlệđịnhdanhđúng100%nhưQH_CVGCTQ,Q H _ D B B M C G , Q H _ D C S C , Q H _ N M K N , Q H _ T E T C L v à (Trang 69)
Hình 2.8 là sơ đồ phân lớp Chèo và Quan họ trên toàn bộ tập dữ liệu dùng 4 bộtham số S1, S2, S3 và S4 với dữ liệu dùng cho huấn luyện và nhận dạng được phânchiatheotỷlệ8:2. - Định danh tự động một số làn điệu dân ca việt nam
Hình 2.8 là sơ đồ phân lớp Chèo và Quan họ trên toàn bộ tập dữ liệu dùng 4 bộtham số S1, S2, S3 và S4 với dữ liệu dùng cho huấn luyện và nhận dạng được phânchiatheotỷlệ8:2 (Trang 70)
Bảng 2.15 là các tham số của mô hình CNN dùng để huấn luyện và nhận dạngtrong nghiên   cứu   phân   lớp - Định danh tự động một số làn điệu dân ca việt nam
Bảng 2.15 là các tham số của mô hình CNN dùng để huấn luyện và nhận dạngtrong nghiên cứu phân lớp (Trang 79)
Hình 2.18 là thông tin chi tiết về cấu hình của CNN được vẽ bằng Netron [130] - -một chương trình dùng để xem cấu trúc mô hình học máy bằng cách hiển thị biểu đồquanhệgiữacáclớp,khối,và cáckếtnốicủamôhình. - Định danh tự động một số làn điệu dân ca việt nam
Hình 2.18 là thông tin chi tiết về cấu hình của CNN được vẽ bằng Netron [130] - -một chương trình dùng để xem cấu trúc mô hình học máy bằng cách hiển thị biểu đồquanhệgiữacáclớp,khối,và cáckếtnốicủamôhình (Trang 80)
Bảng 3.2 và 3.3 cho thấy độ chính xác trên tập dữ liệu xác thực với fold 5 manglại kết   quả   tốt   nhất   là   56,24%   và   74,6% - Định danh tự động một số làn điệu dân ca việt nam
Bảng 3.2 và 3.3 cho thấy độ chính xác trên tập dữ liệu xác thực với fold 5 manglại kết quả tốt nhất là 56,24% và 74,6% (Trang 93)
Bảng 3.10 (đậm- giá trị lớn nhất;mầu đỏ- giá trị nhỏ nhất) là kết quả phân lớpvới các giá trị Accuracy, AUC, Precision, Recall và f1-score tương ứng với các môhình lần lượt là LSTM, CNN, GRU và CSN trên bộ dữ liệu S2n1 - Định danh tự động một số làn điệu dân ca việt nam
Bảng 3.10 (đậm- giá trị lớn nhất;mầu đỏ- giá trị nhỏ nhất) là kết quả phân lớpvới các giá trị Accuracy, AUC, Precision, Recall và f1-score tương ứng với các môhình lần lượt là LSTM, CNN, GRU và CSN trên bộ dữ liệu S2n1 (Trang 97)
Bảng   3.10   cho   thấy,   đối   với   3   mô   hình   LSTM,   CNN   và   GRU,   thể   loại ClassicalđềucóPrecisionvàf1-scorelàcaonhất,cònđốivớimôhìnhCSNthì   cácgiátrịnàylại thuộc về thể loại Jazz - Định danh tự động một số làn điệu dân ca việt nam
ng 3.10 cho thấy, đối với 3 mô hình LSTM, CNN và GRU, thể loại ClassicalđềucóPrecisionvàf1-scorelàcaonhất,cònđốivớimôhìnhCSNthì cácgiátrịnàylại thuộc về thể loại Jazz (Trang 98)
Hình   3.7   cho   biết   giá   trị   trung   bình   cực   đại   và   cực   tiểu   (màu   đỏ)   của Precision,Recall và f1-score trên bộ dữ liệu S7 khi sử dụng mô hình GRU - Định danh tự động một số làn điệu dân ca việt nam
nh 3.7 cho biết giá trị trung bình cực đại và cực tiểu (màu đỏ) của Precision,Recall và f1-score trên bộ dữ liệu S7 khi sử dụng mô hình GRU (Trang 99)
Hình 3.8Mô hình CSN: Trung bình cực đại và cực tiểu của Precision, Recall và f1- f1-scorecủa10thểloạinhạctrongtậpdữ liệuS7 - Định danh tự động một số làn điệu dân ca việt nam
Hình 3.8 Mô hình CSN: Trung bình cực đại và cực tiểu của Precision, Recall và f1- f1-scorecủa10thểloạinhạctrongtậpdữ liệuS7 (Trang 99)
Bảng 3.11 thể hiện trung bình độ chính xác (%) phân lớp và AUC của 4 mô hìnhLSTM, CNN, GRU và CSN khi thực hiện phân lớp trên bộ dữ liệu S7 - Định danh tự động một số làn điệu dân ca việt nam
Bảng 3.11 thể hiện trung bình độ chính xác (%) phân lớp và AUC của 4 mô hìnhLSTM, CNN, GRU và CSN khi thực hiện phân lớp trên bộ dữ liệu S7 (Trang 100)
Hình 3.8 là kết quả phân lớp sử dụng mô hình CNN trên bộ dữ liệu S7. Các thểloại nhạc có Precision, Recall và f1-score trung bình cực đại là 100% sẽ không bịphân loại   sai - Định danh tự động một số làn điệu dân ca việt nam
Hình 3.8 là kết quả phân lớp sử dụng mô hình CNN trên bộ dữ liệu S7. Các thểloại nhạc có Precision, Recall và f1-score trung bình cực đại là 100% sẽ không bịphân loại sai (Trang 100)
Hình 3.9 là so sánh kết quả phân lớp đúng giữa các mô hình LSTM, CNN, GRUvà CSN trên các tập dữ liệu S7, S8 và S9 - Định danh tự động một số làn điệu dân ca việt nam
Hình 3.9 là so sánh kết quả phân lớp đúng giữa các mô hình LSTM, CNN, GRUvà CSN trên các tập dữ liệu S7, S8 và S9 (Trang 101)
Hình 3.10 là tổng hợp độ chính xác của MGC trong nghiên cứu dùng mô hìnhGRU trên tập dữ liệu gốc (S0) và các tập dữ liệu được tăng cường (S1, S2n1, S2n2,S2n3, S2n4,   S2d   và   S2u) - Định danh tự động một số làn điệu dân ca việt nam
Hình 3.10 là tổng hợp độ chính xác của MGC trong nghiên cứu dùng mô hìnhGRU trên tập dữ liệu gốc (S0) và các tập dữ liệu được tăng cường (S1, S2n1, S2n2,S2n3, S2n4, S2d và S2u) (Trang 102)
Bảng 3.20 đưa ra thời gian trung bình để huấn luyện một epoch và thời gian - Định danh tự động một số làn điệu dân ca việt nam
Bảng 3.20 đưa ra thời gian trung bình để huấn luyện một epoch và thời gian (Trang 107)
w