1. Trang chủ
  2. » Luận Văn - Báo Cáo

Định danh tự động một số làn điệu dân ca việt nam

125 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Định danh tự động một số làn điệu dân ca Việt Nam
Tác giả Tôixincamđoantấtcảcácnộidungtrongluậnán
Người hướng dẫn PGS.TS. Trịnh Văn Loan
Trường học Đại học Bách khoa Hà Nội
Chuyên ngành Kỹ thuật máy tính
Thể loại luận án
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 125
Dung lượng 4,65 MB

Cấu trúc

  • Chương 1. TỔNG QUAN VỀ ÂM NHẠC VÀ PHÂN LỚP ÂM NHẠC THEO THỂLOẠI (16)
    • 1.1 Âmthanh,âmnhạc (16)
      • 1.1.1 Kháiniệmâmthanh,âmnhạc (16)
      • 1.1.2 Một sốyếutốcơ bảncủaâmnhạc (17)
    • 1.2 Mộtsốđặctrưngtríchchọntừtínhiệuâmnhạc (18)
      • 1.2.1 Đặctrưngthống kê (18)
      • 1.2.2 Đặctrưngtrong miềnthời gian (19)
      • 1.2.3 Đặctrưngphổ (22)
    • 1.3 Mộtsốthểloạiâmnhạcphổbiếntrênthếgiới (25)
    • 1.4 ĐôinétvềnhạcdâncaViệtNam (26)
      • 1.4.1 Đặcđiểmâm nhạc,lờicatrongChèo (27)
      • 1.4.2 Đặcđiểmâmnhạc,lờicatrongQuanhọ (28)
      • 1.4.3 Đặcđiểmkỹ thuậthátChèo vàQuan họ (30)
    • 1.5 Phânlớpâmnhạctheothểloại (34)
    • 1.6 Mộtsốbộdữliệuâmnhạctheothểloạiđiểnhình (35)
    • 1.7 Mộtsốmôhìnhdùngtrongphânlớpthểloạiâmnhạc (35)
      • 1.7.1 BộphânlớpSVM(SupportVectorMachine) (35)
      • 1.7.2 BộphânlớpGMM(GaussianMixtureModel) (36)
      • 1.7.3 Mạngnơ-ronnhântạo(ArtificialNeuralNetwork) (38)
    • 1.8 Mộtsốkếtquảnghiêncứuphânlớpthểloạiâmnhạctrongvàngoàinước (48)
      • 1.8.1 Tình hìnhnghiên cứungoàinước (48)
      • 1.8.2 Tình hìnhnghiên cứutrongnước (54)
    • 1.9 Kếtchương1 (55)
    • 2.1 BộdữliệuâmnhạcChèovàQuanhọ (56)
    • 2.2 Mộtsốphươngpháptăngcườngdữliệu (58)
      • 2.2.1 Chia đôicácfile dữ liệuâmnhạc (59)
      • 2.2.2 Tạotiếngvọng(creatingecho) (59)
      • 2.2.3 Cộngnhiễu trắng (addingwhitenoise) (59)
      • 2.2.4 Thayđổicaođộ(changingpitch) (60)
    • 2.3 Phânlớp,địnhdanhmộtsốlànđiệudâncaViệtNamdùngmộtsốthuậttoánhọcmáytruy ềnthống (61)
      • 2.3.1 Trườnghợp1:ĐịnhdanhmộtsốlànđiệuQuanhọdùngmộtsốmôhìnhtruyềnt hốngthuộc bộcôngcụWEKA (61)
      • 2.3.2 Trường hợp2:ĐịnhdanhmộtsốlànđiệuQuanhọdùngGMM (64)
      • 2.3.3 Trường hợp3: Phânlớp,địnhdanhChèo vàQuanhọ (66)
      • 2.3.4 Trường hợp4: PhânlớpChèovàQuanhọ (69)
      • 2.3.5 Trường hợp5: ĐịnhdanhChèohoặcQuanhọ (72)
      • 2.3.6 Trường hợp6: ĐịnhdanhChèovàQuanhọdùngi-vector (75)
    • 2.4 PhânlớpvàđịnhdanhmộtsốlànđiệudâncaViệtNamdùnghọcsâu (77)
      • 2.4.1 Bộdữ liệuvàthamsốsửdụng (77)
      • 2.4.2 Cácmạngnơ-ronsâudùngtrongnghiêncứu (78)
      • 2.4.3 Kếtquả nghiêncứuphânlớpvàđịnhdanh (84)
    • 2.5 Kếtchương2 (88)
  • Chương 3. PHÂN LỚP THỂ LOẠI ÂM NHẠC TRÊN BỘ DỮ LIỆU NHẠC VIỆT,GTZANVÀFMADÙNGHỌC SÂU (89)
    • 3.1 CácđộđoAccuracy,Precision,Recallvàf1-score (89)
    • 3.2 PhânlớpnhạcViệtdùngRAN(ResidualAttentionNetwork) (90)
    • 3.3 Nghiênc ứ u p h â n l ớ p t h ể l o ạ i â m n h ạ c đ ố i v ớ i c á c b ộ d ữ l i ệ u G T Z A N v à FMA_SMALL (93)
      • 3.3.1 NghiêncứuphânlớpđốivớiGTZAN (93)
      • 3.3.3 NghiêncứuphânlớpđốivớiFMA_SMALL (102)
    • 3.4 Kếtchương3 (108)
    • 1. Kếtluận (110)
    • 2. Địnhhướngpháttriển (111)

Nội dung

TỔNG QUAN VỀ ÂM NHẠC VÀ PHÂN LỚP ÂM NHẠC THEO THỂLOẠI

Âmthanh,âmnhạc

1.1.1 Kháiniệmâmthanh,âmnhạc Âmthanhđượctạorabởisựdaođộngcủamộtvậtthểđànhồinàođó.Vậtthểđànhồidaođộngsẽtạ oracácsóngâm.Nhữngsóngâmnàylantruyềntrongkhônggianđếntaingườinghelàmchomàngn hĩcũngdaođộngcùngvớitầnsốcủasóngâmđó.Các rung động từ màng nhĩ được truyền qua hệ thần kinh đến não bộ tạo nên cảmgiácvềâmthanh.

Conngườicóthểngheđượcmộtsốlượnglớncácloạiâmthanhkhácnhau,nhưngkhôngphảimọiâ mthanhđềuđượcdùngtrongâmnhạc.Hệthốngthínhgiáccủaconngười có khả năng phân biệt được những âm thanh có tính nhạc và những âm thanhkhông có tính nhạc Âm thanh mà con người cảm thụ được có các tần số được xácđịnh và có cao độ biến thiên theo quy luật nào đó như: tiếng hát, tiếng đàn, tiếngsáo… là những âm thanh có tính nhạc (âm nhạc) Những âm thanh như tiếng nóichuyện,tiếngồn,tiếngđộngcơ,tiếngđậpgõ,tiếngsấmchớp,gióthổi… đượcgọilàtiếngnói,tiếngđộnghoặc tạpâm[3]. Âmnhạcđượchìnhthànhtrêncơsởnhữngâmthanhđãđượcchọnlọcvớinhữngthuộctínhriêng ,đápứngđượcyêucầuvềsựdiễntảvàsựhoàhợpcủaâmnhạc.Âmnhạcđượcxácđịnhbởi4thuộctín hlàcaođộ(pitch),trườngđộ(duration),cườngđộ(loudness/strengthoftone)vàâmsắc

- Caođộ[3]:Làđộcaohaythấpcủaâmthanh,phụthuộcvàotầnsốdaođộngcủavậtthểrung.D aođộngcàngnhanhthìtầnsốcàngcaovàngượclại.Taingườicókhảnăngphânbiệttốtnhữngâmth anhcócaođộtrongkhoảngtừ27,5Hz4.186Hz.

- Trườngđộ(độdài)[3]:Làđộdài/ngắncủaâmthanh,phụthuộcvàothờihạncủanguồn phát âm. Thông thường, tầm cữ dao động lúc bắt đầu của âm thanh càng rộngthì thời gian tắt dần của âm thanh càng dài Trường độ tham gia đóng vai trò quyếtđịnhmộtâmthanhnàođócóphảilàâm nhạchaykhông.

- Cường độ (độ mạnh) [3]: Là độ vang to hay nhỏ của âm thanh, phụ thuộc vàotầmcữdaođộngcủanguồnphátâm.Phạmvitrongđódiễnracácdaođộngđượcgọilà biên độ dao động Biên độ dao động càng rộng thì âm thanh càng to và ngược lại.Đơnvịđểđocường độâm thanhlàDecibel(kýhiệulàdB).

- Âm sắc [3]: Đề cập đến khía cạnh chất lượng hay sắc thái của âm thanh Để xácđịnh đặc điểm của âm sắc, cần phải sử dụng những tính từ thuộc các lĩnh vực cảmgiác khác nhau Mỗi nhạc cụ hoặc mỗi giọng hát đều chứa đựng một âm sắc riêng.Một âm thanh có cùng một cao độ nhất định, nhưng do các loại nhạc cụ hay giọnghátkhácnhauphátrathìmỗinhạccụhaymỗi giọnghátđólạicómộtsắctháiriêng.

Mỗi yếu tố của âm nhạc giống như một thành phần trong công thức để nấu mộtmón ăn Các nguyên liệu được hoà quyện với nhau theo một tỷ lệ nhất định sẽ tạonênhươngvịtổngthểchomộtmónăn.Ngườinhạcsĩhaycácnhàsoạnnhạcthườngsửdụngcác yếutốâmnhạcđểtạo“hươngvị”chocáctácphẩmâmnhạcsaochophùhợp với sở thích và phong cách cá nhân của họ Các yếu tố âm nhạc giúp phân biệtmộtbảnnhạcvớinhữngâmthanhkhác.Mộtsốyếutốcơbảncủaâmnhạccóthểkểđếnnhư:

 Dynamic(độmạnh/nhẹ)[4]:Đượccoilàlinhhồncủaâmnhạc,liênquanđếncường độ của âm thanh Trong một bài hát, dynamic là sự biến động của âmlượng do sắc thái chơi hoặc hát mạnh nhẹ, trầm bổng khác nhau tại các đoạnkhácnhaucủacácnhạccụhoặcgiọnghát.

 Form (hình thức) [4]:Việc hiểu về form rất quan trọng trong sáng tác nhạc,giúpngườinhạcsĩthấyđượcbứctranhtổngthểcủamộttácphẩmâmnhạcnhư:nhạcdạo, lờinhạc(đoạn1,đoạn2),điệpkhúc,giantấu

 Melody (giai điệu) [4]:Là một dãy các nốt nhạc được sắp xếp theo một trật tựnhất định dựa trên cao độ và nhịp Mỗi thể loại âm nhạc sử dụng giai điệu theomộtcáchkhácnhau.

 Harmony (hoà âm) [4]:Hai hay nhiều nốt nhạc được vang lên cùng lúc vớimụcđíchhỗtrợvà làmgiàuchogiaiđiệu,làm chogiaiđiệucóchiều sâu.

 Rhythm(nhịpđiệu/tiếttấu)[4]:Chỉsựnốitiếpcótổchứccáctrườngđộgiốngnhau và khác nhau của âm thanh Khi liên kết với nhau theo một thứ tự nhấtđịnh,trườngđộcủaâmthanhtạoranhómtiếttấu(còngọilàhìnhtiếttấu).Hìnhtiếttấulàđại diệntiêubiểuvềtrườngđộcủatácphẩm âm nhạc.

[4]:Dùngđểchỉcáchkếthợpgiữacác“nguyênvậtliệu”vềgiaiđiệu,nhịpđộ,độhoàâmtro ngmộtbảnnhạcđểtạonênchấtlượngcủaâmthanh.Cáctừ thườngdùngđểchỉkếtcấunhư:“dày”,“mỏng”

 Tempo (nhịp độ) [4]:Mô tả tốc độ mà âm nhạc được trình diễn, là tốc độ thayđổi của nhịp điệu (cụ thể là chỉ sự chuyển động của tiết tấu) Nhịp độ còn đượcgọilàđộnhanhđểchỉ sự chuyểnđộngnhanhhaychậmcủabảnnhạc.

 Timbre (âm sắc) [4]:Là phẩm chất của một nốt nhạc hay các âm thanh khácnhaucủacácnhạccụ.Trongmộtdànnhạcnếucóbaonhiêuloạinhạckhíkhácnhau thì cũng có bấy nhiêu âm sắc khác nhau Mỗi một giọng hát cũng có âmsắcriêng.

 Tonality (điệu thức) [4]:Là hệ thống thể hiện mối tương quan về cao độ củacác âm thanh trong một bản nhạc hay trong một giai điệu Điệu thức là mộtphương tiện diễn tả quan trọng của âm nhạc Màu sắc, tính chất âm nhạc đượchình thành qua kết cấu và mối tương quan điệu thức đã góp phần thể hiện nộidungcủatácphẩm.

Mộtsốđặctrưngtríchchọntừtínhiệuâmnhạc

Tríchchọnđặctrưnglàquátrìnhtrongđódữliệuthôđượcchuyểnđổithànhbiểudiễn các đặc trưng để phục vụ cho các mục đích xử lý tiếp theo Trong phân tích nộidungâmnhạc,cácbảnnhạckỹthuậtsốđượcchuyểnđổithànhmatrậncácđặctrưngchứa các thông tin về các khía cạnh khác nhau của âm nhạc như: cao độ, thời lượng,giaiđiệu,hoàâmhoặcâmsắc… Vớimỗinhiệmvụkhácnhauthìcácđặctrưngđượctrích rút là khác nhau Dưới đây là một số đặc trưng được hầu hết các tác giả nghiêncứutronglĩnhvựctríchchọnthôngtinâmnhạclựa chọnsử dụng.

Giátrịtrungbìnhhay kỳvọng[5]của biếnngẫunhiênrờirạc𝑋,kýhiệulà𝐸(𝑋), thườngđượcgọilàgiá trịtrungbình(ký hiệulà)đượctínhtheocông thức(1.1).

Trong đó:xđại diện cho các giá trị của biến ngẫu nhiên𝑋và𝑃(𝑥)là xác suấttươngứngvớimỗigiátrịcủax.

Phương sai [5] của𝑋là đơn vị đo độ tản mát của dữ liệu quanh giá trị trung bình(tâm) Nếu phương sai lớn, độ tản mát của dữ liệu cao (dữ liệu ở xa so với tâm) vàngượclại.Phươngsaicóthểđượctínhtheo côngthức (1.2).

1.2.1.3 Độlệchchuẩn(StandardDeviation) Độlệchchuẩn[5]chobiếtphầnlớndữliệunằmtrongvùngđó,dữliệunằmngoàivùngđóđượcgọi làngoạilệ.Độlệchchuẩndùngđểxácđịnhsựtảnmátcủadữliệu,đượctínhbằngcănbậchaicủaphư ơngsai(1.3).

1.2.1.4 Độlệch(Skewness) Độ lệch [5] của một biết ngẫu nhiênXđược ký hiệu là𝑠𝑘𝑒𝑤(𝑋), được định nghĩanhưtrong (1.4).

Trong đó:- là giá trị trung bình của𝑋,- là độ lệch chuẩn của𝑋và𝐸(𝑋)- làgiátrịkỳvọngcủa𝑋.Độlệchlàthướcđotínhđốixứng(cânđối)hoặcthiếuđốixứngcủa dữ liệu xung quanh giá trị trung bình của mẫu (cho biết độ lệch của một phânphối so với một phân phối chuẩn) Độ lệch còn được gọi là moment bậc 3 Hình 1.1minhhoạphânphốiSkewness.

1.2.1.5 Độnhọn(Kurtosis) Độnhọn[5]củabiếnngẫunhiên𝑋 ượcđược kýhiệulà𝑘𝑢𝑟𝑡(𝑋),đượcđịnhnghĩanhưsau(1.5):

Trongđó:-làgiátrịtrungbình,-làđộlệchchuẩnvà𝐸(𝑋)-làgiátrịkỳvọngcủa𝑋 Độ nhọn là đơn vị đo độ cao của phần trung tâm so với một phân phối chuẩn.Phầnt r u n g t â m c à n g c a o ( n h ọ n ) t h ì c h ỉ s ố

1.2.2.1 Giá trị hiệu dụng (RMS -

RMS [6] được dùng để đo độ lớn của cáctínhiệubiếnthiênrờirạctheothờigian.Trongxửlýâm thanh,RMSdùngđểđođộtocủaâm

Hình 1.2 Minh hoạ phân bốKurtosis thanhtrongmộtcửasổ.Giátrịthuđượclàtrungbìnhcủatínhiệuâmthanh.Hình1.3làgiátrịRMScủa mộtlànđiệuChèo.RMSsẽđượctínhnhưtrong (1.6):

Nănglượng[7]làmộtthamsốcơbảnđượcsửdụngtrongxửlýâmthanhvàtiếngnói Năng lượng của tín hiệu tương ứng với độ lớn của tín hiệu Năng lượng của tínhiệurờirạcđượctínhnhư trong(1.7).

Hình1.3 NănglượngvàRMScủa mộtlànđiệuChèo

ZCR [8] là số lần tín hiệu dạng sóng cắt qua trục thời gian (trục không) hay nóicáchkháclàtốcđộthayđổicủatínhiệutừgiátrịdươngvềkhôngrồisanggiátrịâmhoặc ngược lại. ZCR được ứng dụng rộng rãi trong phân loại âm thanh hoặc giọngnói,nhậndạngvàtruyxuấtthôngtinâmnhạc.

Hình1.4 ZCRcủamộtlànđiệuChèo

DFTNăng lượng Cácbộlọc thang Mel Các hệ số

Hình1.5 CácbướctínhcáchệsốMFCC

(1) Phân khung tín hiệu: Tín hiệu âm nhạc sẽ được chia thành chuỗi các khung,mỗi khung có kích thước từ 20-30ms (thường chọn là 20ms) Độ dịch khung thườngtừ 10-15ms Sau khi phân chia, do các khung tín hiệu đã bị rời rạc hoá nên cần làmmịn (giảm bớt sự méo phổ) tín hiệu bằng cách đưa qua hàm cửa sổ (Hàm cửa sổthườngdùnglà Hamming).

(2) Thực hiện biến đổi Fourier rời rạc (chuyển tín hiệu từ miền thời gian sangmiền tần số): Thực hiện biến đổi Fourier rời rạc (DFT - Discrete Fourier Transform)trêntừngkhungsẽthu đượccácgiátrịtươngứngvớidảitầnsốtươngứng.ÁpdụngtrêntoànbộtínhiệusẽthuđượcSpec trogramcủa tínhiệu.

(3) SửdụngbộlọcthangMelđểtínhphổMel:TínhiệuDFTđượcchođiquacácbộ lọc số để lọc ra các tín hiệu theo các dải tần số khác nhau Tai người có khả năngnhận biết vùng tần số thấp (< 1KHz) tốt hơn so với vùng tần số cao Do đó, bộ lọcthang Mel mô phỏng quá trình xử lý của hệ thống thính giác bằng cách sử dụng hàmMel(chuyểnđổitầnsốsangthangđoMel).CôngthứctínhcủahàmMeltheo[9]nhưsau(1.9):

(4) Kếtquảđầuracủacácbộlọclàphổcôngsuấtcủaâmthanh(phổnănglượng).Nhưđãtrìnhb ày ở trên,taingườirất nhạy cảmvới sựthay đổinănglượngởcáctần

(5) Cuối cùng, dùng biến đổi Cosin rời rạc (DCT - Discrete Cosine Transform)trêncác vectorlogaritcủaphổsẽthuđượccáchệsốMFCC.

Hình1.6 CáchệsốMFCCvàcác đạohàm MFCCcủa mộtlànđiệuChèo

Có thể lấy thêm đạo hàm bậc nhất, đạo hàm bậc hai của các hệ số MFCC để cóthêmthôngtinbiếnthiêntheothờigiancủacácvectorđặctrưng.Hình1.6minhhoạ20 hệ số MFCC trích rút được từ một làn điệu Chèo và đạo hàm bậc nhất, đạo hàmbậchaicủa20hệ sốnày.

Các đặc trưng phổ của một tín hiệu cho biết nội dung của tín hiệu đó trong miềntần số Các đặc trưng này được sử dụng rộng rãi trong các ứng dụng học máy, họcsâuvàphântíchtrigiácnhư:nhậndạngngườinói[10],pháthiệnnhạccụ[11],nhậndạng tâm trạng

[12, 13], phân lớp thể loại nhạc [14, 15], phát hiện khoảng lặng [16,17]…

Spectral Centroid [18] của tín hiệu cho biết năng lượng của phổ được tập trungnhiềuởvùngtầnsốnào(giốngnhưmộtgiátrịtrungbìnhcótrọngsố).Giátrịspectralcentroidcaoứ ngvớiphổcó chứa nhiềutầnsốcao.

Hình1.7 SpectralCentroidcủamộtlànđiệu ChèovàQuanhọ

Hình 1.7 minh hoạ trọng tâm phổ của một làn điệu Chèo (màu đỏ) và Quan họ(màuxanh).Trọngtâmphổđượctínhnhư trong(1.10):

Với𝑆(𝑘)là ộđược lớn củaphổtại tần số𝑘,𝑓(𝑘)làtần số tại𝑘.

Spectral Contrast [19] là sự chênh lệch mức độ giữa các đỉnh và vùng lõm trongphổ Mỗi khung của một phổSđược chia thành các dải con Đối với mỗi dải con, độchênh lệch về năng lượng được ước tính bằng cách so sánh năng lượng trung bình ởphầntưtrêncùng(nănglượngđỉnh)vớinănglượngtrungbìnhtạiphầntưdướicùng(năng lượng đáy). Hình 1.8 là độ tương phản phổ của một làn điệu Quan họ và mộtlànđiệuChèo.

Hình1.8 SpectralContrastcủamộtlànđiệuQuanhọvàChèo

Hình1.9 SpectralRolloffcủamột lànđiệuChèovàQuanhọ

- 95% (thường là 90%) phân bố năng lượng phổ được tập trung Spectral rolloff chobiết độ lệch của hình dạng phổ, được sử dụng để xác định âm thanh là tiếng nói vàâmthanhkhôngphảitiếngnói(rấthữuíchtrongviệcphânlớpcácthểloạinhạckhácnhau).Hình1.9 minhhoạSpectralRolloffcủamộtlànđiệuChèo vàQuanhọ.

Trong đó:𝑘- c h ỉ s ố c ủ a “ b i n ” - d ả i t ầ n s ố ; 𝑡- t h ờ i g i a n ; 𝑆[𝑘, 𝑡]- ộ l ớ n c ủ a D T F T được tại dải tần sốk;𝑓[𝑘, 𝑡]- tần số ở dải𝑘tại thời điểm𝑡;𝑐𝑒𝑛𝑡𝑟𝑜𝑖𝑑[𝑡]- tâm phổ tại thờiđiểm𝑡;vàcuốicùnglà𝑝- luỹthừa(tăngđộlệchsovớitâmphổ,trongLibROSAthì

𝑝= 2) Hình 1.10 minh hoạ băng thông phổ của một làn điệu Chèo và một làn điệuQuanhọ.

Hình1.10 SpectralBandwidth củamộtlànđiệuChèovàQuanhọ

SpectralFlux[21]chobiếtsựthayđổiluồngphổgiữahai(khung)cửasổliêntiếpvàđượctínhbằ ngchênhlệchbìnhphươnggiữađộlớnchuẩnhoácủaluồngphổtronghaicửa sổliêntiếp.

Hình1.11 SpectralFlux củamộtlànđiệuQuanhọ

Hình 1.11 minh hoạ Spectral Flux của một làn điệu Quan họ Cách tính spectralfluxtheo côngthức(1.12).

Trong đó:𝐸𝑁 𝑖(𝑘) là hệ sốthứ𝑘củaDFTđược chuẩnhoátạikhungthứ𝑖.

Mộtsốthểloạiâmnhạcphổbiếntrênthếgiới

Thể loại âm nhạc hay còn gọi là dòng nhạc là danh mục để nhận dạng một đoạn nhạchay một tác phẩm âm nhạc Đó là nghệ thuật kết hợp các âm thanh của nhạc cụ vàgiọng hát theo một cách có cấu trúc để mang lại nét đặc trưng riêng cho mỗi thể loạiâm nhạc Các bài hát thuộc về cùng một thể loại đều có những điểm tương đồng vềhìnhthức,phongcáchvànguồngốclịchsửcủachúng.Cácthểloạiâmnhạcđượcphânbiệttheon hiềuyếutốkhácnhau,chẳnghạnnhưchứcnăng,đốitượng,xuấtxứ,phânbố địa lý, các yếu tố lịch sử, kỹ thuật và các nhạc cụ sử dụng Do có nhiều hệ thốngphânlớpkhácnhaunênmộtsốthểloạiâmnhạccóthểbịtrùnglặp(mộtsốbảnnhạccó thể thuộc về nhiều thể loại) Dưới đây là đặc điểm, nguồn gốc của một số thể loạinhạcphổbiếntrênthếgiới.

 Pop:Là một thể loại nhạc phổ biến, được hình thành vào cuối những năm

1960.Đâylàmộtthểloạinhạccógiaiđiệuđơngiản,dễnghe,dễhát,cùngvớimộtsốđoạnđiệp khúc và câu luyến láy được lặp đi lặp lại Thể loại nhạc này luôn là sự lựa chọnhoànhảovớibấtkỳmộtcasĩnào.

 Rock:Làmộttrongnhữngthểloạiđadạngnhất,cónguồngốctừMỹvàsauđólansangV ươngquốcAnhvàonhữngnăm1950.ĐặcđiểmđơngiảnnhấtđểphânbiệtRockvớicácthểloạinhạck háclàâmthanhvànhạccụsửdụng.MộtbannhạcRockcơbảnchỉcầnmộtdàntrống,mộtguitarvà mộtbass.TrongcácbảnnhạcRock,tiếngguitarluônnổibậtvàxuyênsuốtbàihát,tiếngbassđầyngẫuh ứngvànhịptrốngbiếntấukhônlường.

 Jazz:ĐượctạorabởingườiMỹvàlànétvănhoábảnxứcủangườiMỹ.Sựkếthợpgiữaâmnhạ cphươngTâyvàchâuPhiđãtạonênnhạcJazz,nhưngchínhnềnvănhoácủangườiMỹđãươmmầmch oJazzpháttriển.ĐặctrưngcủanhạcJazzlàsựkếthợpgiữacácbàinhạctếthầnvớicácbàicalaođộng củacácnôlệtrênđồngruộngnêngiai điệu và chất nhạc của Jazz mang phong cách sầu bi, đôi khi có phần buồn thảm,thêlương.

 Dance:Nhạc Dance còn được gọi dân dã là nhạc vũ trường, là một thể loại nhạccó âm thanh mạnh, được phát triển từ thể loại nhạc disco thập niên 1970 và thườngđượcsửdụngtrongcácvũtrường,hộpđêm.Ngàynay,mộtnhánhconcủathểloạinàylà nhạc EDM (Electronic Dance Music) đang trở thành xu hướng nghe của không ítgiớitrẻtrênthếgiới.

 Blues:Giống như tên gọi, các ca khúc nhạc Blues thường mang đến sự buồnbã,ảmđạmvàsâulắngchongườinghe,thườngđượcbiểudiễnbằngkènvớigiaiđiệuréo rắt NhạcBlues là dòng nhạc xuất hiện gần như sớm nhất trong cộng đồng ngườidađensốngtạiMỹ,nónhưmộttấmgươngphảnchiếunhữngtínhcáchđặctrưngvàquan điểm của những người Mỹ gốc Phi đó là: đơn giản, trữ tình, thi vị, nhiều khoáicảm,vàđôikhilàhàihước,châmbiếm.

Hopgồm:Rap,DJ&MC,BreakdancevàGraffiti.CóthểhiểuHip-

HoplàmộtnềnvănhoánghệthuậtvàâmnhạccủanềnvănhoáđóchínhlàRap.Rapcóthểđượcth ểhiệntrênnềnnhạchoặcthểhiện“chay”vàđượccoinhưsựgiaothoagiữanóivàhát.

 Classical:Đúngvớitêngọi“Classical”tứclàcổđiển-nhữngthứđãtồntạilâuđời, dùng để chỉ những bản nhạc được soạn từ nhiều thế kỷ trước, mang phong cáchriêng biệt của những nhà soạn nhạc nổi tiếng như Beethoven, Mozart, Jacopo Peri…NhạcClassicalcoitrọngnhạckhí,họthườngviếtcácbảngiaohưởngchỉcókhínhạcvà không có thanh nhạc Các nhà soạn nhạc dựa trên những nhạc cụ để thể hiện cảmxúcnhưtuyệtvọng,hânhoan,ngâyngất…

 Country:Mộtthểloạinhạcđạidiệnchotâmhồnmộcmạc,chânchấtcủaconngười đó chính là nhạc Country, hay còn gọi là nhạc đồng quê Mỹ Cội nguồn của nhạcCountrychínhlànhữngbàidâncamàngườidânnhậpcưtừAnh,ScotlandvàIrelandmangđếnM ỹvàothếkỷXVIII-

XIX.Đâylàdòngnhạcthanhcảnh,khôngcầnnhiềunhạccụ(đôikhichỉcầnmộtcâyguitar).Nộidungl ờicađơngiản,lànhữngtriếtlývềcuộc sống, cuộc đời của những người lao động, sự cô đơn, niềm tin và các mối quanhệtronggiađình.

 R&B/Soul:Bắtđầuđượcbiếtđếntừđầunhữngnăm1940,nhưngmãiđếnnăm1949 cụm từ Rhythm and Blue (R&B) mới được Jerry Wexler đề xuất R&B là tổnghợp của nhiều thể loại, phong cách nhạc khác nhau nhưng có mối liên quan chặt chẽvớinhau,chủyếudongườidađenbiểudiễn.Nộidungcácbàihátchủyếunóivềsựphânbiệtchủ ngtộc.PhongcáchnhạcR&Brấtđadạng,từmềmmại,nhẹnhàng,dịudàng,uyểnchuyểnchođếnt hôráp,xùxì,góccạnh,dồndập…tạoranhiềucungbậckhácnhau.

 Reggae:BắtnguồntừJamaicavàonhữngnăm1960vàđãgâybãotrêntoànthếgiớinh ờtácphẩmcủaBobMarley.Reggaelàsựkếthợpgiữaâmnhạcdângiantruyềnthống của Jamaica với nhạc Jazz và R&B Nhịp điệu khác thường và hợp âm ngắtquãnglànhữngchủthểâmnhạcphổbiếntrongReggae.NhạcReggaecómốiliênhệchặtchẽvớ iChủnghĩaRastafarianvàtôngiáochâuPhi.

ĐôinétvềnhạcdâncaViệtNam

Dân ca của mỗi nước, mỗi dân tộc hay của mỗi vùng, mỗi miền đều có âm điệu,phong cách riêng biệt Sự khác nhau này tùy thuộc vào môi trường sống, hoàn cảnhđịa lý và đặc biệt là ngôn ngữ Dân ca Việt Nam là một thể loại âm nhạc cổ truyềnViệt Nam do chính người dân sáng tác trong quá trình lao động, sinh hoạt và đượctruyềnkhẩu,truyềnngónquanhiềuthếhệnênthườngcónhiềudịbảnvàhầuhếtđềukhôngrõtá cgiả.Nhữnglànđiệudâncađượcsángtácởkhắpcácvùng,miềnnênrấtđadạngvềgiaiđiệuvàpho ngphúvềnộidung.

DâncaViệtNamgồmnhiềuthểthứchátnhư:hátru,hátquanhọ,hátxẩm,các điệuhò,điệulý,đồngdao,nóithơ,ngâmthơhaycảhátsắcbùa,điệubóngrỗi…Nétchung nhất của các bài dân ca (ở cả 3 miền) đều thể hiện sự dân dã, mộc mạc, mangâm hưởng tình cảm nhẹ nhàng, nội dung chứa đựng những tâm tư, ước muốn hoặcphảnánhđờisốnglaođộngcủangườinôngdân,ngưdân;tônvinhnhữnggiátrịtìnhcảmcaođẹp củaconngườinhư:lòngthủychung,hiếuthảo,tìnhyêuquêhương,thểhiện tình cảm giữa người với người. Để phân định và gọi theo vùng miền hay từngtỉnh, người ta phân định bằng“ca từ”, bằng“âm giọng”, bằng cách“nhấn nhá”,“luyến láy”,“ngân nga”,“rê giọng”… mà theo đặc tính chỉ vùng miền hay tỉnh đómớicóthểhátđược.

Khái niệm “làn điệu” trong âm nhạc thường được hiểu là cách thể hiện, biểu diễnmột giai điệu hoặc một bài hát cụ thể Làn điệu dân ca là cách gọi phổ biến trong âmnhạctruyềnthốngcủaViệtNam.TheocáchgọitruyềnthốngcủangườiViệt,lànđiệudùng để chỉ những bài bản có tên và lời ca khác nhau nhưng giai điệu có những néttươngđồnggiốngnhau.

Trong nền dân ca phong phú của Việt Nam, Chèo và Quan họ nổi bật với số lượng làn điệu đa dạng Luận án này tập trung vào việc xây dựng kho dữ liệu toàn diện về hai loại hình dân gian này.

Chèo [22] là một loại hình nghệ thuật sân khấu cổ truyền Việt Nam, đã trải quaquá trình lịch sử lâu dài từ thế kỷ X đến nay Chèo phát triển mạnh ở miền Bắc ViệtNam, trọng tâm là vùng đồng bằng sông Hồng Chèo đã đi vào đời sống xã hội ViệtNam, phản ánh mọi góc độ của bản sắc dân tộc Việt Nam như: tinh thần lạc quan,nhân ái, yêu cuộc sống bình dị, yên lành nhưng cũng tràn đầy lòng tự hào dân tộc,đấutranhkiêncườngchốnggiặcngoạixâm…

Chèomangtínhquầnchúng,giàutínhdântộcvàđượccoilàloạihìnhsânkhấucủahộihè.Vớiđặcđiểm sửdụngngônngữđa thanh, đa nghĩa kết hợp với lối nói ví von, giàu tính tự sự, trữ tình nên Chèo nổibậthơncácloạihìnhnghệthuậtkhácnhư Tuồng,Cảilương,cakịch…

Cấu trúc một vở diễn Chèo [22] gồm nhiều cảnh, màn … với hệ thống các nhânvật phong phú, đại diện cho nhiều kiểu tính cách trong xã hội như: Thư sinh (képchính - vai chính diện, kép nền, kép ngang - vai phản diện), Đào (Đào chính, Đàolệch và Đào pha), Lão (Lão say, Lão chài, Lão Mãng…), Mụ (Mụ thiện, Mụ ác, Mụmối…),

Hề (Hề áo ngắn: hề gậy, hề mồi, Hề áo dài: xã trưởng, thầy bói…)… Có thểnói,nghệthuậtChèođãđạtđược độsâu sắccảbihài,bìnhdịlẫntinhtế.

TheosoạngiảMaiThiệnthốngkêtừcáctàiliệuthamkhảo[23-27]vàmộtsốghichép của mình, ông đã tổng hợp được danh sách trên 190 làn điệu Chèo, được chiathànhcác hệthống lànđiệunhư sau[28]:

-Hệthống lànđiệu đốiđáp,trữtình: 22điệu;

- Hệthốnglànđiệuđườngtrường:17điệu(lànhữngđiệuhátgồmnhiềutrổvàcókỹ thuật hát phức tạp Những điệu hát thuộc hệ thống này thường mang tính chất trữtìnhvàdiễntảnhữngtrạngtháinộitâmkháphức tạpcủanhânvật);

Hệ thống làn điệu sắp gồm 29 điệu, phổ biến trong quan họ Đặc trưng của sắp là hát nói, nhịp điệu nhanh, vui tươi, thể hiện sự lạc quan, phấn chấn Thể loại này còn có những bài mang tính giễu cợt thường được các vai hề trình bày như: sắp mua ngâu, sắp đan lồng

- Hệ thống làn điệu hề: 28 điệu (Là những hệ thống làn điệu chuyên dùng cho cácvai: Hề gậy, hề mồi có tính chất vui vẻ, gây cười và nhiều lúc cũng dùng để châmbiếmvàgiễucợt);

- Hệ thống làn điệu vãn, thảm: 10 điệu (Thường dùng cho nhân vật trong nhữnghoàncảnhbuồnkhổ,thanthântráchphận,ngậmngùixótxa);

Hệ thống làn điệu nói sử đóng vai trò nền tảng trong phong cách âm nhạc kể chuyện của Chèo Gồm hát sử và nói sử, lối nói này thể hiện bằng âm điệu đĩnh đạc và tiết tấu rõ ràng Qua đó, các nhân vật được khắc họa một cách sống động, đặc biệt đối với những tình huống đòi hỏi diễn đạt rõ nét.

- Hệthốnglànđiệusalệch:Mangchấttrữtình,đằmthắmthiếttha,đôikhicóchútdỗihờnvàsự buồnthươngmanmác;

- Hệthống lànđiệu nói,vỉa,ngâmvịnh;

- Hệ thống chỉ có một làn điệu như một bài hát riêng được gọi là bài ca lẻ trongChèo.Bàicalẻkhôngđứngtrongmộthệthốnglànđiệunhưngmanggiátrịthẩmmỹcaonhư: Quântửvudịch,Đàoliễu,Đàolý,Tìnhthưhạvi,Bìnhthảo,Chứccẩmhồivăn,Lớilơ

LờicatrongChèo[22]phầnlớnsửdụngthểthơlụcbátvàcácbiếnthểcủalụcbátnênlờicarấtcôđọ ng,súctích.LờicatrongChèothườngđượclấytừdânca,cadao,tụcngữ,truyệnthơ…từ các vùng,miền.

Tiếngđệm[22]đóngvaitròrấtquantrọngtrongdâncanóichung,nótạonênsắcthái riêng biệt cho từng thể loại dân ca và chi phối đến kỹ thuật hát Tiếng đệm gồmđệmlótvàđệmnghĩa,lànhữnghưtừ,thựctừbổtrợcholờihátlàmchogiaiđiệutrởnên phong phú. Tiếng đệm trong Chèo thường sử dụng những nguyên âm đơn vànguyênâmđôinhư:i,a,ôi,ới…

Nhữngnguyênâma,i-a,ới- athườngdùngởnhữnglànđiệucótínhchấtvuitươi,rộnràng.Còncácnguyênâmi-i,í- ơđượchátởnhữnglàn điệu trữ tình, buồn thương Ngoài ra, Chèo còn sử dụng các bổ trợ từ cho lời canhư:nàya,nàyra,dậumà, ấy mấy…

QuanhọBắcNinhlànhữnglànđiệudâncacủavùngđồngbằngBắcBộ,tậptrungchủyếuởvùngKinhBắc(giápranhgiữahaitỉnhBắcNinhvàBắcGiang).Đâylà mônnghệthuậtđượchợpthànhbởinhiềuyếutốnhưtậpquánxãhội,nghệthuậttrìnhdiễn,kỹthuậthát,ph ongcáchứngxửvănhoá,bàibản,ngôntừvàtrangphục,…vớimột lối hát giao duyên dân dã, thể hiện mối quan hệ gắn bó tình nghĩa giữa những“liềnanh”,“liềnchị”hátquanhọvàlànétvănhóatiêubiểucủangườidânvùngKinhBắc.

2009,QuanhọđãđượcUNESCOcôngnhậnlàDisảnvănhoáphivậtthểđạidiệncủanhânloạisaunh ãnhạccungđìnhHuế,khônggianvănhoáCồngChiêngTâyNguyênvàcùngđợtvớicatrù.Đếnnay, Quanhọvẫntiếptụcđượcpháttriển và phổ biến trên nhiều phương tiện thông tin đại chúng, không chỉ được khángiả trong nước yêu thích mà còn thu hút được sự quan tâm của các khán giả nướcngoài.

Theothốngkêtrong[29]có213lànđiệudâncaQuanhọvớihơn400bàicađượcchiachủyếuthà nh3giọng.

 GiọngLềlối(gồm10lànđiệu):Đâylàgiọngmởđầucủabuổicahát,đượcdiễnxướng với tốc độ chậm, nhiều luyến láy, nhiều tiếng đệm Đôi lúc nhịp pháchkhôngrõràng,âmđiệuthườngởâmkhuthấp,tầmcữhẹp.Điểnhìnhlàcácbài:“Larằng

”,“Bạnkimlan”,“Câygạo”,“Tìnhtang”,“Cáihờicáiả”,…

 GiọngVặt(gồm183lànđiệu):Làgiọngthuộcphầnchínhcủabuổicahát.Cóthểnóitínhc hấtnghệthuậtcủaquanhọđượcthểhiệnrõởgiọngnày.Âmnhạcngắngọn,bốcụcchặtchẽ,ti ếttấulinhhoạtchứkhôngđơnđiệunhưởgiọngLềlối.Nộidunglờicakháphongphú,sốlượngb àibảntươngđốinhiều.Vídụnhưcácbài:“Kháchđếnchơinhà”,“Taynângcơigiàu”,“Trố ngcơm”,“Quacầugióbay”,“Tươngphùng-

 GiọngGiãbạn(gồm20lànđiệu):Làgiọngháttrướclúcchiatay.SốlượnglànđiệuởgiọngGiã bạnkhôngnhiềunhưngchấtlượngnghệthuậtcủacáclànđiệuở giọng này khá cao Chủ đề chính của giọng này là tiễn biệt Vì vậy giai điệuthường buồn, nhưng rất mặn nồng, đắm say như tình cảm nhớ thương của cácliềnanh,liềnchịquanhọ.Vídụnhưcácbài:“Ngườiởđừngvề”,“Chuôngvànggáccửata mquan”,“Kẻbắcngườinam”,“Chiarẽđôinơi”,“Connhệngiăngmùng”

Lời ca trong Quan họ [22] chủ yếu là những câu thơ hoàn chỉnh của nhiều thể thơkhácnhau,kếthợpvớinhữngtiếngđưahơi,đệmlótvàđệmnghĩalàmchonộidungvàhìnhthức củalờicaQuanhọtrởnênhấpdẫnvàđộcđáo;vừamangtínhchấtmộcmạc, giản dị như trong ca dao, đồng thời lại vừa bóng bẩy, hoa mỹ Nội dung lời cachủ yếu nói về ân nghĩa, tình yêu đôi lứa, thể hiện sự khát khao yêu thương và đượcyêuthương,đượcthểhiệnquahìnhthứchátgiaoduyên,đốiđápđểbộclộnhữngtâmtư,tìnhcảmc hấtchứatronglòngcácliềnanh, liềnchịQuanhọ.

Phânlớpâmnhạctheothểloại

Trong khoa học dữ liệu, xử lý âm thanh là một trong những nhiệm vụ phức tạp nhất so với xử lý ảnh và các kỹ thuật phân lớp khác Để đơn giản hóa nhiệm vụ này, ứng dụng phân loại thể loại âm nhạc được phát triển để phân loại các file âm thanh theo các thể loại nhất định mà chúng thuộc về Ứng dụng này có tầm quan trọng lớn, đặc biệt là trong quá trình tự động hóa để giảm thiểu lỗi và tiết kiệm thời gian Do đó, các thuật toán học máy đã được áp dụng để giải quyết vấn đề này.

Họcmáylàmộtnhánhcủatrítuệnhântạo(AI)vàkhoahọcmáytính,nghiêncứutậptrungvàoviệ csửdụngdữliệuvàthuậttoánđểhuấnluyệnchomáytínhtựhọcvàcải thiện tri thức của mình dựa trên dữ liệu huấn luyện (training data) hoặc dựa vàokinhnghiệm(nhữngthôngtinđãhọcđược).

Các kỹ thuật trong học máy có thể được chia thành 5 loại: Học có giám sát, họckhông giám sát, học bán giám sát và học tăng cường Các bài toán trong học máythườngđượcchialàm2loại:dựđoán(prediction)vàphânlớp(classification).Trìnhtựcácbư ớctronghọcmáynhưsau:

1 Thu thập dữ liệu:Để máy tính có thể học được thì cần phải có một bộ dữ liệu(dataset) Có thể sử dụng các bộ dữ liệu đã được công bố trước đó hoặc tự xây dựngdữliệubằngcáchđithuthậptừcácnguồnchínhthống.

2 Tiền xử lý:Thực hiện chuẩn hoá dữ liệu, loại bỏ đi các thuộc tính không cầnthiết,gánnhãnchodữliệuvàtríchchọncácđặctrưng.

3 Huấnluyệnmôhình:Chomáytínhhọctrêndữliệuđãđượcthuthậpvàxửlýtạibước1và bước2.

4 Đánhgiámôhình:Môhìnhsaukhiđượchuấnluyệnxong,cầndùngcácđộđođểđánhgiáhi ệuquảcủamôhình.Tuỳthuộcvàomỗiđộđomàkếtquảđánhgiámôhìnhsẽkhácnhau,độchínhxá ccủamôhìnhđạttrên80%đãđượccholàtốt.

5 Cảithiệnmôhình:Saukhiđánhgiámôhình,nếumôhìnhkhônghiệuquả(độchínhxácth ấp)thìcầnphảihuấnluyệnlạibằngcáchthayđổicácthamsốđầuvàocủamôhìnhchođếnkhikếtquả đầuracủamôhìnhđạtđộchínhxácnhưkỳvọng.

Hình1.12 Sơđồchungchohệthốngphân lớpthểloạiâmnhạc(nguồn:[30])

Mộtsốbộdữliệuâmnhạctheothểloạiđiểnhình

Các nghiên cứu về âm nhạc hết sức đa dạng và phong phú, với mỗi khía cạnhnghiên cứu lại có các bộ dữ liệu tương ứng Do vậy, số lượng bộ dữ liệu âm nhạc làtương đối nhiều [31] Bảng 1.2 là một số bộ dữ liệu âm nhạc theo thể loại điển hìnhđược sử dụng nhiều nhất trong các nghiên cứu về phân lớp âm nhạc theo thể loại.Trongđó,đángchúýnhấtlàhaibộdữliệuGTZANvàFMA,vìđâylàhaibộdữliệuđượcsửdụng nhiềunhấttrongcácnghiêncứu vềphânlớpâmnhạctheothểloại.

5 FMA_SMALL[36] 8.000files, mỗifilecóđộdài30s, 8thểloại

6 FMA_MEDIUM [36] 25.000files,mỗifilecóđộdài30s,16thểloại

7 FMA_LARGE[36] 106.574files,mỗifilecóđộdài30s,161thểloại

8 FMA_FULL[36] 106.574files,toànbài, 161thểloại

Mộtsốmôhìnhdùngtrongphânlớpthểloạiâmnhạc

SVM[37]làmộtthuậttoánhọccógiámsátkháhiệuquảđốivớicácbàitoánphânlớpvàdựbáo.Thu ậttoánnàycóưuđiểmlàhoạtđộngtốtđốivớinhữngmẫudữliệucó kích thước lớn (số chiều lớn), kết quả mang lại thường khá vượt trội so với cácthuậttoánkháctronghọccó giámsát.SVMcómộtsốưuđiểmsau:

- Tiêu tốn ít bộ nhớ vì chỉ sử dụng các điểm trong tập hỗ trợ để dự báo trong hàmquyếtđịnh.

- Có thể tạo ra nhiều hàm quyết định từ các hàm kernel khác nhau Nếu sử dụngđúngkernelthìhiệuquảcủa thuậttoánsẽđược cảithiệnđángkể.

Xét bài toán phân lớp nhị phân sử dụng SVM [37]:Giả sử có tập dữ liệu huấnluyện𝓧gồmNmẫu𝑥 𝑖 , 𝑖=1, 2, … , 𝑁.Trong đó, điểm dữ liệu thứilà𝑿 𝑖 (𝐱 𝑖 , 𝑦 𝑖 )với𝐱 𝑖 ∈ ℝ 𝑑 là vector ầu vào và𝑦được 𝑖 ∈{−1, 1}là biến mục tiêu Tập dữ liệu này đượcgiảđịnhlàtáchbiệttuyếntính(Hình 1.13).

Giảsửcác điểmhìnhvuông(màuđỏ)thuộcvàolớp(+1) -nằmvềphíadương,vàcác điểm hình sao(màu xanh) thuộc vào lớp (-1) - nằm về phía âm Ba đường thẳngA, B và C trong Hình 1.13 là ba đường biên song song, có cùng phương,phân chiadữliệuthànhhailớptáchbiệt.Trongbađườngbiênnày,chỉcóđườngbiênBlàcông

Các vector hỗ trợ bằng nhất (vì nằm giữa và cách đều các điểm gần nhất thuộc hai lớp), còn lựa chọnđườngbiênAhoặcClàkhôngcôngbằng(vìdễthiênvịvềmộtlớp hơnlớpcònlại).Độ rộng của đường biên được gọi là lề (margin) Tập hợp các điểm nằm sát đườngbiên nhất (nằm trên đường nét đứt) được gọi là tập hỗ trợ hay vector hỗ trợ (hỗ trợtìmrađườngbiên).

Hình1.13 Hìnhảnhdữliệu,đườngbiênvàlềtrongSVM

Trong không gian hai chiều thì đường biên là một đường thẳng, trong không gianba chiều thì đường biên là một mặt phẳng (plane), còn trong không gian có số chiềulớnhơn3thìđườngbiênphânchialàmộtsiêuphẳng(hyperlane).Trongmộtbàitoáncụ thể sẽ có vô số đường biên phân loại Trong không gian𝑑chiều, mục tiêu củaSVM là cần tìm ra một siêu phẳng (đường biên) phân chia sao cho độ rộng của lềgiữacác lớplàlớnnhất(cáclớptáchbiệtnhaunhất).

Phân phối Gauss là một phân phối xác suất được đặc trưng bởi hình chuông đốixứng(Hình1.14),đượcsửdụngrộngrãiđểmôhìnhhoáphânphốichocácbiếnngẫunhiênliêntục. Mậtđộxácsuấtchobiếnngẫu nhiênmộtchiều𝑥nhưsau (1.13):

Hình1.14 PhânbốGaussvớimộtsốgiátrịcủa𝜇và𝜎

Hình1.15làphânbốGaussđathểhiện(nétliềnmàuđỏ)kếthợptừ3phânbốGaussđ ơnthểhiện(nétđứt)Gauss1,Gauss2vàGauss3.

Hình1.15 Phân bốGaussđathểhiệnlà tổhợpcủa3phânbốGauss đơnthểhiện

Trongđó:𝐱làvectordữliệuchứatậpcácvectorthamsốđặctrưng(mỗiphầntử củatậ pcó k í c h thướ cD),𝑘 = 1 …𝑀(Mlàs ố thànhphầ nGa uss ), làtrungbình và𝑘là ma trận hiệp phương sai của dữ liệu tương ứng Mô hình GMM ãđược ược sử được dụng nhiều trong các nghiên cứu về nhận dạng người nói, nhận dạng ngôn ngữ, địnhdanh phương ngữ, định danh thể loại âm nhạc… Mô hình GMM có thể được xem làxếpchồngtuyếntínhcủa cácphânbốGaussnhưsau[38]:

KhisửdụngmôhìnhGMMđểđịnhdanhmộtsốlànđiệudâncaViệtNam,𝐱trong(1.15)làvectorchứatập cácthamsốđặctrưngcủamỗilànđiệu,mỗiphầntửcủatập có𝐷chiều.𝑘làtrọngsốcủahỗnhợpthoảmãnđiềukiện∑𝑀 𝜋 𝑘 = 1

Mô hình GMM đầy đủ được mô tả bởi bộ 3 tham số𝜆 ={𝜋 𝑘 , 𝜇 𝑘 , Σ 𝑘 }, 𝑘 = 1

… 𝑀.Để phân lớp hoặc định danh một làn điệu đã được mô hình hoá bởi, cần xác địnhkhảhiện(likelihood)𝑝(𝐱,𝜆)như trong(1.16).

VớiNlà số lượng vector đặc trưng và cũng là số lượng khung của file âm thanhchomộtlàn điệu nào đó.

Trên thực tế,là hàm phi tuyến nên cần dùng thuật toán EM[38, 39] để xác địnhsaocho𝑙𝑜𝑔𝑝(𝐱,) ạtđược cựcđại.

Nơ-ron nhân tạo x1, x2, xN - Các đầu vào; b - độ lệch w1, w2, w3, wN - Trọng số của liên kết

Mạng nơ-ron nhân tạo là mô hình xử lý thông tin mô phỏng cách bộ não người hoạt động Các mạng nơ-ron được tạo thành từ nhiều nơ-ron nhân tạo (node) kết nối với nhau bằng các liên kết có trọng số Các liên kết này định hình chức năng của mạng bằng cách điều khiển luồng thông tin giữa các nơ-ron Do đó, cấu trúc và trọng số của các liên kết đóng vai trò quan trọng trong việc xác định khả năng mạng nơ-ron nhân tạo thực hiện các tác vụ cụ thể.

Hình1.16alàcấutrúccủamộtnơ- ronsinhhọc[40]gồmbathànhphầnchính:Cácđuôigaiđóngvaitrònhưcácbộnhậntínhiệu(đầuvào), phầnthânchínhvàphầnsợitrụclà bộtruyềntínhiệu(đầura).

Hình1.16a Cấu trúccủamộtnơ-ronsinhhọc (nguồn:[40]) x 3 x N b-bias

Hình1.16b Cấutrúccủamộtnơ-ronnhân tạo

Hình1.16bmôtảmộtnơ-ronnhântạo(perceptron)đượcxâydựngmôphỏngtheocách thức hoạt động của nơ-ron sinh học, gồm có các đầu vào (giống như các đuôigai)vàtínhiệuđầura(giốngnhưsợitrục).Mỗitínhiệuđầuvàođượcgánmộttrọngsố(w i ),trọn gsốnàysẽđượcnhânvớigiátrịđầuvào(x i )tươngứng.Cáctrọngsốnàysẽđượctínhtoánvàđiềuchỉnhtr ongquátrìnhhọc(huấnluyện)củamạngbằngthuậttoán hạ độ dốc (gradient descent) và lan truyền ngược (back propagation) Hàm kíchhoạtsauđóđượcápdụngchotổngcáctrọngsố,kếtquảlàtínhiệuđầuracủanơ- ron.Chitiếtcácthànhphầnnhư sau:

- Tập các đầu vào:Là các tín hiệu (mẫu, ảnh) được đưa vào cho nơ-ron

- Tậpcácliênkết:Mỗiliênkếtcómộttrọngsố,cáctrọngsốnàyđượckhởitạo ngẫu nhiên tại thời điểm khởi tạo mạng (sẽ được điều chỉnh trong quá trình huấnluyệnmạng).Cáctrọngsốcóthểdương(thểhiệntrạngtháikíchthích)hoặcâm(thểhiệntrạng tháikiềmchế).Thôngthường,trọngsốcủaliênkếtthểhiệntầmquantrọngcủacác kếtnốigiữacácnơ- ronbêntrong mạng.

- Hàm tính tổng:Dùng để tính tổng của tích các đầu vào với trọng số liên kếttươngứngvớiđầuvàođó.

- Độlệch(Ngưỡng):Đượccoinhưmộttrọngsốcủamạng,đượcthêmvàođểđiềuchỉnh giá trị của hàm tổng sao cho khác không hoặc làm tăng mức độ phản ứng củahệthống.Xuhướngthườngchọngiátrị nàybằng1.

- Hàmkíchhoạt:Đượcdùngđểgiớihạnphạmviđầuracủamỗinơ- ron.Đầuvàochohàmkíchhoạtlàkếtquảcủahàmtổngvàngưỡngđãcho.Đầuracủamỗinơ- ronthường được giới hạn trong phạm vi [0, 1] hoặc [-1, 1] Hàm kích hoạt có thể là hàmtuyến tính (ít dùng) hoặc phi tuyến (thường dùng), việc lựa chọn loại hàm nào phụthuộc vào bài toán cụ thể và kinh nghiệm của người lập trình. Bảng 1.3 là công thứcvàđồthịcủa mộtsốhàmkíchhoạtthườngđược sử dụng.

Mạng nơ-ron nhân tạo là sự liên kết của các nơ-ron nhân tạo Sự sắp xếp các nơ- ron và cách thức liên kết giữa chúng sẽ tạo nên nhiều kiến trúc mạng nơ-ron khácnhau Việc sắp xếp các nơ-ron sẽ tạo nên các lớp mạng (mạng 1 lớp hay mạng nhiềulớp), còn việc liên kết giữa các nơ-ron sẽ quyết định đến việc tín hiệu được truyềnnhưthếnào(truyềnthẳnghayhồiquy)trongmạng.

Mạng nơ-ron truyền thẳng cho phép tín hiệu truyền theo một hướng từ đầu vào đến đầu ra, không có sự phản hồi hoặc lặp lại Cấu trúc trong mạng truyền thẳng dựa trên phương pháp từ dưới lên hoặc từ trên xuống Mạng này thường được sử dụng trong các bài toán nhận dạng đối tượng.

Mạng nơ-ron hồi quy sở hữu kiến trúc tương tự mạng nơ-ron truyền thẳng, nhưng khác biệt ở khả năng truyền tín hiệu theo cả hai hướng nhờ liên kết hồi quy giữa các nơ-ron Đặc tính này khiến mạng hồi quy có hệ thống liên kết phức tạp hơn nhưng cũng giúp giảm thiểu số lượng nơ-ron cần thiết Do đó, mạng nơ-ron hồi quy thường được ứng dụng hiệu quả trong các bài toán nhận dạng mẫu và dự báo.

B5:Lan truyềnngượcđểhiệuchỉnhlạicáctrọngsốsaochogiátrịđầuratiếndầnđếngiátrịthực. B6: Lặp lại từ B3 cho đến khi giá trị đầu ra gần với giá trị thực nhất (hàm tổn thấtlànhỏnhất).

Cấu trúc CNN lần đầu tiên được Fukushima đề xuất vào năm 1980 [42] Tuy nhiên,sau đó không được sử dụng rộng rãi vì thuật toán dùng cho huấn luyện rất khó sửdụng Phải đến những năm 1990, LeCun và cộng sự [43] đã áp dụng thuật toán họchạđộdốc(gradientdescent)dựatrênCNNvàđãthuđượckếtquảthànhcôngtố t y 11 y 12 y 13 y 21 y 22 y 23 y 31 y 32 y 33 đẹp.Tiếptheođó,cácnhànghiêncứuđãtiếptụcchứngminhrằngCNNchokếtquảtốt trong nhận dạng mẫu [44, 45] (nhận dạng chữ số, chữ số Alpha, biển báo giaothông và các lớp đối tượng khác) Gần đây, CNN đã được ứng dụng rất nhiều tronglĩnhvực phân loạiâmnhạc theo thểloại[46-51]. MạngCNNgồmmộttậphợpcáclớpcơbản,baogồm[52]:Lấychập(Convolutionallayer), kíchhoạtphituyến(Non- linearlayer),lấygộp(Poolinglayer)vàkếtnốiđầyđủ(Fullyconnectedlayer),các lớpnàyliênkếtvớinhautheomộtthứtự nhất định Khi một ảnh được truyền qua tầng Convolutional layer và Non- linearlayer đầu tiên, các giá trị tính toán được sẽ lan truyền qua Pooling layer Bộ 3 lớpConvolutional layer + Nonlinear layer + Pooling layer có thể được lặp lại nhiều lầntrong mạng Cuối cùng, thông tin được lan truyền qua tầng Fully connected vàSoftmaxđểtínhxácsuấtvàquyết địnhđólàđốitượngnào.

 Lấy chập (Convolutional):Là thao tác đầu tiên và quan trọng nhất Lớp nàycó nhiệm vụ phát hiện và trích rút những đặc trưng (feature) cục bộ bên trong ảnh.Quátrìnhlấychậpđượcthựchiệnnhưsau:Mộtbộlọc(filter/kernel)đượcdichuyển(xuất phát từ góc trái trên) lần lượt từ trái qua phải và từ trên xuống dưới qua các vịtrítrêntoànbộmatrậnđiểmảnh.Bộlọcsẽdichuyểnvớibướcdịchchuyển𝑆(thườngchọn𝑆=1) cho cả hai hướng, thao tác lấy chập được thực hiện tại mỗi vị trí mà bộlọc đi qua và được tính theo công thức (1.17) Kết quả của thao tác lấy chập là matrậnchứa các ánhxạđặctrưngđược tríchrút từ ảnh.

Trongđó:𝑿làmatrậnđầuvào(ảnh),𝑾làbộlọc(filter/kernel),làkýhiệucủaphép lấy chập (convolution) Với mỗi phần tử𝑥𝑖𝑗trong ma trận𝑿, trích ra một matrận (tính từ góc trái trên) có kích thước bằng với kích thước của kernel và có phầntử𝑥𝑖𝑗làm trung tâm, gọi là ma trận C Sau đó tính tổng các phần tử của phép tínhelement-wisecủamatrận Cvới ma trận W ,vàghikếtquảvàomatrậnđầura Y

Hình1.17 Minh hoạcáchlấychậpkhiápbộlọclênmatrậnđầuvào

Hình1.17làminhhoạcácbướclấychậpkhiápbộlọc(3×3)vàomatrậnđầuvào(ảnh)cókíchthước5×5. Trongtrườnghợpnàykhôngbổsungthêmlề(𝑃=0)và x 11 x 12 x 13 x 14 x 15 x 21 x 22 x 23 x 24 x 25 x 31 x 32 x 33 x 34 x 35 x 41 x 42 x 43 x 44 x 45 x 51 x 52 x 53 x 54 x 55 w 11 w 12 w 13 w 21 w 22 w 23 w 31 w 32 w 33 pooling x

 Kíchhoạtphituyến(Non-linearActivation):Thaotáclấychậpvềbảnchấtlà một phép biến đổi tuyến tính, tuy nhiên dữ liệu bên trong ảnh lại là phi tuyến. Dođó,saumỗilớplấychập,đầuracủaánhxạlấychậpcầnđượcchoquahàmkíchhoạtphi tuyến Các hàm kích hoạt phi tuyến có thể coi như một bộ lọc nhằm quyết địnhviệc thông tin nào sẽ được đi qua nơ-ron. Việc áp dụng hàm kích hoạt phi tuyến vàosaumỗilớplấychậpsẽgiúpchomạngnơ- roncóthểhọcđượcbiểudiễncủacáchàmphứctạphơn(tăngtính phituyếnchomạngnơ- ron)sovớicáchàmtuyếntính.

Mộtsốkếtquảnghiêncứuphânlớpthểloạiâmnhạctrongvàngoàinước

Các nghiên cứu ngoài nước liên quan trực tiếp đến khai thác dữ liệu âm nhạc rất đadạngvàđãđượcthựchiệntừrấtnhiềunămtheocáchướngkhácnhaunhư:Phânlớpâmnhạctheot hểloại[32,63],địnhdanhnghệsĩ/casĩ[64,65],pháthiệncảmxúc/ tâmtrạng[15,66],nhậnbiếtnhạccụ[67],tìm kiếmâmnhạctươngđồng[68,69]…

Nghiên cứu đầu tiên về phân lớp âm nhạc được Matityaho và Furst [70] thực hiệnvàonăm1995khisửdụngmôhìnhdựatrênmạngnơ- ronđểphânlớphaithểloạinhạclàClassicalvàPop.Tuynhiên,trongcácnămtiếpsauđ ó,cácnghiêncứuvềphân lớp thể loại âm nhạc vẫn chỉ diễn ra nhỏ lẻ, số lượng các công bố không nhiều.Đếntháng10/2000tạiMassachusetts(Mỹ),Hộithảoquốctếvềtríchchọnthông tin âm nhạc - ISMIR (International Symposium on Music Information Retrieval)đượctổchứclầnđầutiênđãthuhútđượcrấtnhiềucácnhànghiêncứuvềâmnhạcởkhắp mọi nơi trên thế giới Kể từ đó, Hội thảo này được tổ chức thường niên và trởthànhdiễnđànnghiêncứuhàngđầuthếgiớivềxửlý,tìmkiếm,tổchứcvàtríchxuấtcác thông tin liên quan trực tiếp đến âm nhạc Bảng 1.4 là thông tin về thời gian vàđịađiểmtổchức ISMIRkểtừ khithànhlậpđến2022.

Số lượng bài báo tham chiếu đến [32] từ 2002 đến 10/2022

Năm2002,TzanetankisvàcộngsựđãhoànthànhbộsưutậpâmnhạctheothểloạiđặttênlàGTZA N[32]gồm10thểloạinhưhiệnnay.Đâylàbộdữliệuâmnhạctheothể loại đầu tiên và được sử dụng nhiều nhất trong các bài báo được công bố trongcùnglĩnhvựctheothốngkêcủaStum[72].

Sau khi hoàn thiện bộ dữ liệu GTZAN, các tác giả đã công bố nghiên cứu [32]phân lớp thể loại âm nhạc trên bộ dữ liệu này dùng mô hình GMM với 30 tham sốđặc trưng (19 timbral texture (9 FFT + 10 MFCC) + 6 rhythmic content + 5 pitchcontent) Kết quả có độ chính xác cao nhất đạt 61,0% (chi tiết trong [32]) Kể từ saucôngbốđó,phânlớpthểloạiâmnhạcđãtrởthànhchủđềnóngtrongcộngđồngMIR[73,74].

Hình1.26 Thốngkêsốlượngbàibáocótrích dẫnđến[32]

Bàibáođượctríchdẫnnhiềunhấttronglĩnhvựcphânlớpâmnhạctheothểloạilàcủa Tzanetankis và cộng sự [32] Hình 1.26 là thống kê từ [75], tính đến tháng10/2022đãcóđến3.936lượttríchdẫnđếnbàibáo [32]. Bảng 1.5 là tóm tắt một số kết quả nghiên cứu nổi bật đã được công bố về phânlớp thể loại âm nhạc trên bộ dữ liệu GTZAN (sắp xếp theo độ chính xác nhận dạnggiảmdần).

Bảng1.5 Tómtắtmột sốkếtquả nghiêncứu nổibậtvề MGCtrênGTZAN

TT Tácgiả Năm Môhình Thamsố Độchínhx ác(%)

TT Tácgiả Năm Môhình Thamsố Độchínhx ác(%)

128 mel-filters bank + 68- dimensional featurevector

8 Ceylan,HasanCan,et al [83] 2021 CNN MFCC 93,4

S Shajee Mohan.[84] 2021 SVM- basedclassifi ers

MFCCfeatures,mo difiedgroupdelayfeatu res(MODGDF),a nd low- leveltimbralfeatures

13 Islam,MdShofiqul,et al [88] 2022 XGBoost Time&Frequencydo mains 90.22

Chaudhury,Mou sumi,AminKarami, andMustansarAli

Random ForestCla ssifier Time&Frequency 90,0

15 Tzanetankis[32] 2002 GMM timbral texture, rhythmiccontent,pit chcontent 61,0

Bộ dữ liệu FMA (Free Music Archive) được giới thiệu vào năm 2017 bởi Michặl Defferrard và cộng sự là bộ dữ liệu âm nhạc theo thể loại phong phú và mới mẻ nhất hiện nay (tính đến 2/2023) Bộ dữ liệu này cung cấp số lượng lớn nhạc bản quyền tự do thuộc nhiều thể loại đa dạng, đi kèm thông tin siêu dữ liệu liên quan đến bài hát, nghệ sĩ và album Sự ra đời của bộ dữ liệu này đã góp phần tạo nên một nguồn tài nguyên dồi dào và phong phú, hỗ trợ đắc lực cho các nghiên cứu và phát triển các thuật toán phân lớp thể loại âm nhạc.

Bảng1.6 Tómtắtmộtsốkếtquảnghiêncứu nổibậtvề MGC trên FMA_SMALL

TT Tácgiả Năm Môhình Thamsố Độchínhx ác(%)

W.Bian,J.Wang,B.Zhu ang, J Yang,

Wideensembl es ofNN classifiersEn10 bestmodel)(The

Bottom- upBroadcastNeur alNetworks(BB Melspectrogram 58,3

TT Tácgiả Năm Môhình Thamsố Độchínhx ác(%)

P.Jangyeonk, H Jung-Woo and N Juhan[99] 2018 Siamese 256- dimensionfeature s

Hybridense mblesforme d fromCRNN andclassical classifiers

Nghiên cứu đầu tiên trên dữ liệu dân ca được Wei Chai và Barry Vercoe [103]thuộcphòngthínghiệmtruyềnthôngđaphươngtiện-ViệncôngnghệMassachusetts(Mỹ) thực hiện vào năm 2001 trên bộ dữ liệu gồm: 187 làn điệu dân ca Ailen, 200làn điệu dân ca Đức và 104 làn điệu dân ca Áo Đây là bộ dữ liệu được các tác giảtrích từ (1) bộ sưu tập dân ca Essen (Đức) của Helmut Schaffrath và (2) bộ sưu tậpâm nhạc Ailen của Donncha Ó Maidín Các tác giả đã sử dụng công cụ HMM (HiddenMarkov Model) với tỷ lệ dữ liệu được chia ngẫu nhiên cho phần huấn luyện và nhậndạng là 70% và 30% Kết quả phân lớp hai lớp giữa tổ hợp các thể loại nhạc Ailen - Đức, Ailen - Áo và Đức - Áo cao nhất lần lượt là 75,0%, 77,0% và 66,0% Kết quảphânlớpgiữa 3thểloạinhạccó độchínhxáccaonhấtlà63,0%. Đến năm 2015, Nikoletta Bassiou và cộng sự [104] đã thử nghiệm phân lớp âmnhạc dân gian Hy Lạp thành 2 thể loại dùng kỹ thuật phân tích tương quan chính tắc(CCA - Canonical Correlation Analysis) giữa lời bài hát và âm thanh Dữ liệu thửnghiệmgồm98bàiháttừPontusvà94bàiháttừAsiaMinor.Phânchiadữliệudùngchohuấnluyện vànhậndạngtheotỷlệ75%và25%.Thựcnghiệmphânloạisửdụngphươngphápđánhgiáchéo,kếtqu ảnhậndạngđúngtrungbìnhcủa5lầnthửnghiệmlà97,02%.

Rajesh, Betsy và D G Bhalke [105] đã tiến hành phân lớp thể loại dân ca Tamil(miềnnamẤnĐộ)vàonăm2016.Bộdữliệugồmcó216(103bàiháttruyềnthống + 113 bài hát dân ca) trích đoạn bài hát dân ca với độ dài mỗi đoạn là 30s Dữ liệuhuấn luyện cho mỗi loại là 70 trích đoạn và dữ liệu nhận dạng cho mỗi loại lần lượtlà 33 và 43 trích đoạn còn lại Thử nghiệm nhận dạng với KNN đạt được độ chínhxác66,23%,vớibộphânlớpSVMđộchínhxácđạtđược84,21%.

Với nội dung trình bày ở trên, có thể thấy rằng bên cạnh các bộ phân lớp truyềnthống, các cải tiến trong học sâu đã được sử dụng rộng rãi trong MGC Từ các môhìnhhọcsâubanđầunhưCNN,CRNN,LSTMchođếncáccảitiếnsaunàyvớikiến trúcphứctạphơnnhưGRU,mạngnơ- ronSiamese,ResNetvàDenseNet.NgoàiviệcsửdụngMelSpectrogramlàmthamsốđặctrưngcho MGC,cácđặctrưngkháctrongmiền thời gian và tần số [89] cũng được khai thác Các đặc trưng trong miền tần sốbao gồm trọng tâm phổ, băng thông phổ, suy giảm phổ, thông lượng phổ và hệ sốMFCC. Trong miền thời gian, các tham số đặc trưng thường được sử dụng là ZCR,nănglượngthờigianngắn,nhịpvàRMSE.Cácthamsốdựatrênsắcđộcũngthểhiệnnộidungâm sắccủatínhiệuâmnhạcvàđượcsửdụngnhưmộtđặctrưngquantrọngtronghệthốngphânlớpvà gợiý âmnhạc.

Tại Việt Nam, một số nhà nghiên cứu và trang web âm nhạc đã cố gắng tổng hợpvàphânlớpcácbảnnhạctheocácthểloạikhácnhaunhằmgiúpngườidùngdễdàngtìmkiếmvàl ựachọncácbảnnhạcphùhợpvớisởthíchcủamình.Sauđâylàmộtsốnghiên cứu và bài viết khoa học về phân lớp các thể loại nhạc trong nước và quốc tếđãđược các tácgiảtạiViệtNamthực hiện.

Năm2016đãcócôngtrìnhnghiêncứuvềphânlớpâmnhạctheothểloạicủanhómtác giả Phan Anh Cang và Phan Thượng Cang [106] Các tác giả đã tiến hành thửnghiệmtrênbộdữliệuGTZAN,sửdụngphépbiếnđổiWaveletrờirạcđểtríchchọncác đặc trưng liên quan đến nhịp điệu Các đặc trưng trích chọn được gồm 19 đặctrưng về âm sắc, 6 đặc trưng nhịp điệu và 5 đặc trưng cao độ Kết quả thử nghiệmdùngbộphânlớp

KNNchokếtquảphânlớptrungbìnhcaonhất đạt83,5%. Đến năm 2017, nhóm tác giả Phan Anh Cang, Nguyễn Thị Kim Khánh và PhanThượng Cang [107] đã thử nghiệm phân loại 4 loại nhạc Việt là Bolero, Cải lương,Chèo và Hát bội, mỗi thể loại có 300 file, tổng số 1200 file cho 4 thể loại Các đặctrưng được trích rút liên quan đến âm sắc và nhịp điệu, mô hình sử dụng là kNN vàSVM Trung bình kết quả phân loại chính xác đạt 93,75% và 94,0% đối với kNN vàSVM.NộidungnghiêncứuđượccôngbốtạiTạpchíkhoahọc-TrườngĐạihọcCầnThơnăm2017.

TạicuộcthiZaloAIChallengeđượccộngđồngAIViệtNamtổchứclầnđầutiênnăm 2018, nhóm tác giả Nguyễn Bá Dũng [108] đã giành giải nhất trong lĩnh vựcphân lớp bài hát Việt Bộ dữ liệu gồm 867 file của 10 thể loại nhạc Việt đã được cáctácgiảchiathànhcáckhungnhỏ,tríchxuấtcácđặctrưngphổvàdùngDeepNetworkđểphânlớp.K ếtquảnhậndạngđạtđộchínhxác70,1%.

Nghiên cứu phân lớp thể loại âm nhạc ở Việt Nam vẫn còn hạn chế và chưa thực sự phát triển Các nghiên cứu hiện có sử dụng các mô hình phân lớp truyền thống và các tham số đặc trưng chưa đầy đủ, dẫn đến độ chính xác phân lớp ở mức độ hạn chế.

Kếtchương1

Chương1đãtrìnhbàytổngquanmộtsốkháiniệmvàcácyếutốvềâmnhạc;cácđặctrưngtrongtí nhiệuâmnhạc;kháiniệmvềthểloạinhạc,đặcđiểmcủamộtsốthểloại nhạc phổ biến và đôi nét về nhạc dân ca Việt

Nam Đồng thời, Chương 1 cũngtrìnhbàymộtsốnghiêncứuvềphânlớpâmnhạctheothểloạiđãđượcthựchiệnbởicáctácgiản ướcngoài.Cóthểthấy,cácnghiêncứutronglĩnhvựcâmnhạcpháttriểnmạnh mẽ theo nhiều hướng khác nhau từ sau những năm 2000 Tuy nhiên, phân lớpthể loại âm nhạc vẫn còn là vấn đề khó giải quyết, nếu giải quyết tốt sẽ có đóng góprấtnhiềutrongthực tiễnvàthươngmại.

Tại Việt Nam, đã có một số nghiên cứu về phân lớp thể loại âm nhạc trên bộ dữliệunhạcQuốctếvànhạcViệtNam.Tuynhiên,chưacómộtcôngbốchínhthứcnàovềphânlớpc ácthểloạinhạc Việt, đặc biệt lànhạcDân caViệtNam.

Chương 2 ĐỊNH DANH MỘT SỐ LÀN ĐIỆUDÂNCA VIỆTNAM

Làn điệu dân ca là một phần quan trọng của di sản văn hóa và âm nhạc của mộtquốc gia Chúng không chỉ thể hiện lịch sử, truyền thống và tinh thần của một dântộcmàcònphảnánhtínhđặctrưngvàđadạngcủaâmnhạctruyềnthống.Tuynhiên,với sự phong phú và đa dạng của các làn điệu dân ca, việc phân lớp và định danhchúngtrởthànhmộttháchthứclớn.Trongchươngnàysẽtrìnhbàykếtquảphânlớp,định danh một số làn điệu dân ca phổ biến là Chèo và Quan họ dùng một số thuậttoán học máy truyền thống, bao gồm Gaussian Mixture Models (GMM), SupportVector Machines (SVM), cùng với một số mô hình mạng nơ-ron sâu như CNN,CRNN,LSTM,GRU.

Chương trình gồm các giai đoạn: trình bày tiêu chí và phương pháp xây dựng bộ dữ liệu DANCA; giới thiệu phương pháp tăng cường dữ liệu âm nhạc cho mô hình học sâu; trình bày quy trình thiết kế, xây dựng mô hình; đánh giá kết quả và rút ra kết luận.

BộdữliệuâmnhạcChèovàQuanhọ

Việc xây dựng bộ dữ liệu âm nhạc dân ca trong luận án này được dựa trên một sốtiêuchícơbảnnhư sau:

 Các file âm thanh được thực hiện ghi âm trong Studio do các ca sĩ chuyên nghiệpthựchiệnđểđảmbảochấtlượngâmthanh.

 Cân bằng về mặt dữ liệu của các làn điệu để tạo điều kiện thuận lợi cho việcphânlớp.

 Tầnsốlấymẫucủatoànbộdữliệuđượcchọnbằng16kHzvàsố16bit/mẫuđểđảm bảo chất lượng âm thanh cho phân lớp thể loại âm nhạc đồng thời kíchthướcdữ liệuchomỗifilekhôngquálớn.

 Cấutrúcdữliệuđượcthiếtlậpđơngiản,dễdàngchoviệcmởrộngsaunày.Tênfiledữliệuđược đặttheotêncủalànđiệuvànhữngfilecùnglànđiệuđượcchứachungtrong mộtthư mục. Dựatrêncáctiêuchíđãtrìnhbày,luậnánđãxâydựngbộdữliệunhạcdâncaViệtNam là Chèo và Quan họ dùng cho nghiên cứu định danh tự động các làn điệu này.Sốlượnglànđiệutrongmỗiloạihìnhlàtươngđốinhiều,tuynhiênkhôngphảitấtcảcáclànđiệuđ ềuđượcnhiềucasĩ/nghệnhânthểhiện,đặcbiệtlàđốivớithểloạiChèolàmộtloạihìnhâmnhạc sân khấu. Đối với các làn điệu Quan họ, dữ liệu được cung cấp từ Trung tâm Văn hoáQuanhọKinhBắc,tỉnhBắcNinh.Dữliệunhậnđượccó98lànđiệucódunglượngkhoảng4,77GB với số file trong mỗi làn điệu là không đều nhau (một số làn điệu chỉ có duynhất 1 file) Các làn điệu này đều do các nghệ sĩ chuyên nghiệp hoặc các nghệ nhânbiểudiễnvàđượcthutrongstudio.CònđốivớicáclànđiệuChèo,luậnánthuthập từ nhiều nguồn tin cậy khác nhau trên Internet với số làn điệu là 47, dung lượngkhoảng 2,42 GB và số lượng file trong các làn điệu cũng không đều nhau Các lànđiệuChèocũngdocácnghệsĩchuyênnghiệpbiểudiễnvàđượcthuâmtrongStudio.

 Phân loại dữliệu: Chuyểnđổi tất cảcácfileâm nhạcvềcùngmột địnhdạnhlà

*.wav, tần số lấy mẫu 16 kHz và 16 bit/mẫu Tiếp đến, các file của cùng mộtlànđiệuđược lưuvàotrongmộtthư mụcriêng.

 Xử lý dữ liệu: Lựa chọn các làm điệu có số lượng file âm thanh nhiều (đượcnhiều ca sĩ/nghệ nhân thể hiện), có chất lượng âm thanhcao và ít nhiễu. Mỗifiletrongmỗilànđiệusẽđượcloạibỏphầnnhạcdạo,phầnkhởiđầu(bỉ/vỉa…),phầnkếtt húcvàchỉlấyphầnnộidungchính.

 Gán nhãn dữ liệu: Với mỗi làn điệu, tên file được lưu theo cấu trúc ‘‘CH hoặcQH_Chữ cái đầu trong tên làn điệu-thứ tự file.wav’’ Trong đó, CH/QH là kýhiệu của Chèo/Quan họ Ví dụ, đối với làn điệu quan họ ‘‘Ăn ở trong rừng’’ sẽcótênviếttắtlầnlượttừQH_AOTR-01.wavđếnQH_AOTR- 20.wav.Bảng2.1làkýhiệucáclànđiệuChèovàQuanhọđượcdùngtrongnghiêncứu. Cuốicùng,luậnánchỉchọnra25lànđiệuChèovà25lànđiệuQuanhọdùngtrongnghiêncứuvàđặttên chobộdữliệunàylà“DANCA”.Sốlượngfileứngvớimỗilànđiệu được lấy cân bằng nhau và bằng 20 file Do đó, số lượng file cho các làn điệuChèo là 500 file và bằng số lượng file cho các làn điệu Quan họ. Tổng số file trongbộdữ liệulà1000file.

Bảng2.1KýhiệucáclànđiệuChèovàQuan họdùng chobộ dữliệu

TT Tênviết tắt TênlànđiệuChèo Tênviết tắt TênlànđiệuQuanhọ

01 CH_BT Bìnhthảo QH_BBBD Buôn bấc buôndầu

02 CH_CG Cấmgiá QH_BDMT Bèo dạtmâytrôi

03 CH_CP Chinh phụ QH_BQ Baquan

04 CH_CCHV Chứccẩm hồivăn QH_CD Còn duyên

05 CH_CNGM Con nhệngiăngmùng QH_CTVTVT Cổ tay vừatrắngvừatròn

06 CH_DD Đò đưa QH_CTX Cây trúcxinh

07 CH_DL Đàoliễu QH_CVGCTQ Chuôngvànggáccửa tam quan

08 CH_DLMC Đàolý mộtcành QH_DBBMCG Đôibênbácmẹcùnggià

09 CH_DPPC Duyênphận phảichiều QH_DCSC Đốica sôngcầu

10 CH_DTBT Đườngtrườngbắnthước QH_DQNB Đêmquanhớbạn

11 CH_DTTD Đường trường tiếngđàn QH_GDCC Gió đưacây cải

12 CH_DTTK Đườngtrường thukhông QH_GTGM Giăngthanhgiómát

13 CH_DTTN Đườngtrườngtrênnon QH_LGD Lý giaoduyên

14 CH_DTVT Đườngtrường vịthủy QH_LVDC Lòngvẫnđợichờ

15 CH_DXN Du xuân QH_MN Mườinhớ

16 CH_DX Dươngxuân QH_NGMD Nguyệtgácmái đình

17 CH_LL Lớilơ QH_NMKN Nhớmãikhôn nguôi

18 CH_LNC Luyệnnăm cung QH_NODHLV Ngườiơiđến hẹnlạivề

TT Tênviết tắt TênlànđiệuChèo Tênviết tắt TênlànđiệuQuanhọ

19 CH_NTQT Nónthúngquaithao QH_NQNL Nhấtquế nhịlan

20 CH_QG Quágiang QH_SCLK Sechỉ luồnkim

21 CH_QM Quạtmàn QH_SMAD Súcmiệng ấmđồng

22 CH_QTVD Quân tửvudịch QH_TETCHL Tìmemtrong chiềuhộiLim

23 CH_SQC Sắp qua cầu QH_TPTN Tươngphùng tương ngộ

24 CH_TV Tò vò QH_TRBMSTC Trênrừng 36thứchim

25 CH_XX Xẩm xoan QH_VBM Vuibốn mùa

Mộtsốphươngpháptăngcườngdữliệu

Trong học sâu, dữ liệu đóng vai trò then chốt vì các thuật toán được sử dụng dựa trên dữ liệu Mô hình được huấn luyện với càng nhiều dữ liệu thì càng gần với thực tế Tuy nhiên, với những lĩnh vực khan hiếm dữ liệu, việc tạo ra mô hình hiệu quả trở nên khó khăn Mặt khác, việc thu thập dữ liệu với số lượng lớn tốn nhiều thời gian và chi phí, thậm chí một số dữ liệu nhạy cảm khó có thể thu thập được số lượng nhiều Do vậy, để tạo ra lượng dữ liệu mong muốn, các kỹ thuật tăng cường dữ liệu trở nên cần thiết.

Tăng cường dữ liệu là tạo các dữ liệu mới một cách thích hợp từ dữ liệu hiện có.Điều này có thể thực hiện bằng cách thực hiện các thay đổi nhỏ trên dữ liệu hoặc sửdụng các mô hình học máy để tạo ra các điểm dữ liệu mới trong không gian của dữliệu gốc nhằm khuếch đại tập dữ liệu Kỹ thuật tăng cường dữ liệu có thể được ápdụng trên nhiều loại dữ liệu khác nhau như: hình ảnh, âm thanh, video, văn bản vàcácloạidữliệukhác.Dướiđâylàmộtsốkỹthuậtđượcápdụngtrêndữliệuvănbản,hìnhảnhvàâmt hanh.

-Vớidữliệu hình ảnh

+Biếnđổihìnhhọc:lật,cắt,xoay,thu/phóng…

+Biếnđổimàusắc:ThayđổingẫunhiêncáckênhRGB,độtươngphản,độsáng,đ ộbãohoà.

Trong các nghiên cứu của luận án, các phương pháp tăng cường dữ liệu âm thanhđược sử dụng là: chia đôi các file dữ liệu âm nhạc, cộng nhiễu trắng, tạo tiếng vọngvàthayđổicaođộ.

Theo phương pháp này, chia đôi mỗi file dữ liệu âm nhạc thành hai file Như vậy,dữliệusẽđượctănglênhailần.Hình2.1minhhoạviệcchiamộtfileâmthanhcóđộdài 30s thành hai file có độ dài 15s của cùng một thể loại và phổ Mel tương ứng vớitừng file âm thanh sau khi phân chia Có thể thấy hai nửa file mặc dù của cùng thểloạisongcódạngtínhiệukhácnhauvàphổMelcũngkhônggiốngnhau.

Hình 2.1 Minh họa việc chia một file âm thanh thành hai nửa cùng thể loại và phổMeltương ứng

Hiệuứngtiếngvọngđượctạorabằngcáchchoâmthanhlặplạicóâmlượnggiảmdần Hình 2.2 minh hoạ tín hiệu âm thanh bị trễ 250ms và lặp lại 3 lần Đối với mỗilầnlặp,biênđộtín hiệutrễđượcnhânvớihệsố0,25.

Hình2.2 Tiếngvọngđượcquansátởphầncuốicủafile âmthanh 2.2.3 Cộngnhiễutrắng(addingwhitenoise)

Nhiễu trắng được tạo bởi sự kết hợp ngẫu nhiên của nhiều tần số, mang lại cường độ năng lượng phân bố đều trên phổ tần Trong xử lý tiếng nói, LibROSA được sử dụng để thêm nhiễu trắng bằng cách đặt biên độ của nhiễu ở mức 0,03 biên độ cực đại của tín hiệu gốc Tỷ lệ tín hiệu trên nhiễu (SNR) được tính theo công thức SNR(dB) = log P, trong đó P là tỷ số giữa công suất tín hiệu và công suất nhiễu.

10𝑃 𝑁 đó𝑃𝑆là công suất của tín hiệu và𝑃𝑁làcông suất của nhiễu đã được cộng, vớigiả định rằng nhiễu nền tồn tại trongcác file âm thanh gốc có thể được bỏqua Theo Viện Khoa học Máy tínhQuốct ế ( I C S I )

[ 1 1 0 ] , S N R = 30dB được coi là tín hiệu sạch Do đó, việccộng nhiễu không làm giảm đáng kểchất lượng tín hiệu trong trường hợpnày Hình 2.3 cho thấy một ví dụ vềcách tính SNR của một file và giá trịtrungbìnhcủaSNR.

Hàm Librosa.effects.pitch_shift trong LibROSA hỗ trợ thay đổi cao độ của nốt nhạc Hình 2.4 minh họa sự thay đổi cao độ của nốt A5 (nốt La ở quãng 8 thứ 5), từ nốt A5 ban đầu có tần số 880 Hz lên nửa cung thành nốt A5# có tần số 933,88 Hz và lên một cung thành nốt B5 (nốt Si ở quãng 8 thứ 5) có tần số 987,77 Hz.

Hình2.4 Minhhoạviệcthayđổicaođộlên nửacungvàmộtcung

Phânlớp,địnhdanhmộtsốlànđiệudâncaViệtNamdùngmộtsốthuậttoánhọcmáytruy ềnthống

Trongphầnnày,luậnánđãtiếnhành6trườnghợpnghiêncứuphânlớpvàđịnhdanhmộtsốlànđiệ udâncaViệtNam.Phânlớplàxácđịnhloạihoặcthểloạicủamộtđoạnnhạchoặcmộtbàihátcụthể.Địn hdanhlàxácđịnhcụthểtênmộtbảnnhạchoặcbàihátdựatrênmộtđoạnâmthanhnhấtđịnh.Bảng2 2làthôngtinvềmôhình,bộdữliệu,bộthamsốvàsốlượngthamsốđượcsửdụngtrongmỗitrườnghợp.

Bộ dữliệu Môhình Các trường hợpnghiên cứu Bộthamsố Số lượng

SMO, MultiLayerPer ceptron,MultiC lassClassifier thuộcWEKA Định danh MFCC,ZCR,xácxuấtâmhữutha nh,F 0 , nănglượng 384

GMM Định danh MFCC+ nănglượng 60

Phân lớp và Địnhdanh MFCC+nănglượng 60

S1+F 0 +intensity+tempo 63 i-Vector Định danh MFCC+ nănglượng 60

WEKA là bộ công cụ rất hữu ích dùng trong lĩnh vực khai phá dữ liệu trong đóchứa tập hợp các thuật toán học máy dùng cho khai phá dữ liệu do Đại học Waikato,New Zealand phát triển [111] Một số thuật toán dùng cho nghiên cứu được cài đặttrongbộcôngcụWEKA.SMOlàthuậttoánhuấnluyệnSVMtốiưuhoátuầntựcựctiểu dùng cho phân lớp vector hỗ trợ dùng kernel đa thức hoặc Gauss MultiLayerPerceptron là mạng nơ-ron nạp trước (feed- forward artificial neural network), trongđó sử dụng thuật toán lan truyền ngược (back propagation) để phân lớp.

MultiClassClassifierlàbộphânlớpMetadùngđểxửlýdữliệuđalớpvớibộphânloạihailớp có khả năng sửa lỗi đầu ra để gia tăng độ chính xác Dữ liệu đầu vào dùng cho huấnluyệnvànhậndạnglàfilechứacácthamsốđăctrưngtheođịnhdạngARFF[112].

Để phân loại làn điệu dân ca Quan họ giọng Vặt, nghiên cứu này sử dụng 384 hệ số đặc trưng được trích xuất từ công cụ OpenSMILE, bao gồm 16 tham số liên quan đến ngữ điệu, phổ và chất lượng âm thanh Bộ dữ liệu gồm 10 làn điệu với 100 tệp ghi âm do 20 nghệ sĩ thể hiện Nghiên cứu này tiến hành phân loại tự động theo phương pháp đánh giá chéo, trong đó 90% dữ liệu được dùng để huấn luyện và 10% dữ liệu được dùng để nhận dạng.

Các bảng 2.3, 2.4 và 2.5 là ma trận nhầm lẫn đối với định danh một số làn điệuQuanhọBắcNinhsửdụngcácbộphânlớpSMO,

Bảng 2.6 cho thấy kết quả định danh một số làn điệu dân ca quan họ Bắc Ninh.Trung bình tỷ lệ định danh đúng cao nhất đạt 89,0% với bộ phân lớp SMO và thấpnhấtlà71,0%vớibộphânlớpMultiClass.

Trung bình tỷ lệ địnhdanhđúng 89,0% 86,0% 71,0%

Tỷlệđịnhdanhthayđổiđốivớicáclànđiệukhácnhaucóthểđượcgiảithíchnhưsau.Vớinhữnglà nđiệumàcácnghệsĩthểhiệnlànđiệucũngnhưcáchthứcphốikhíkháđồngnhấtvớinhauthìtỷlệđịnh danhđúngsẽcaohơn.Trongkhiđó,nhữnglànđiệu mà các nghệ sĩ thể hiện theo phong cách khác nhau và phối khí cũng khác nhausẽdẫnđếntỷlệđịnhdanhđúngthấphơn.

Bộdữliệudùngtrongtrườnghợpnàycũngchínhlàbộdữliệuđãđượcdùngtrongtrường hợp 1 Mục đích của nghiên cứu này nhằm đánh giá ảnh hưởng của tham sốlàtầnsốcơbản(F 0 )đếnkếtquảđịnhdanh.

Nghiên cứu được thực hiện với mô hình GMM được cài đặt trong bộ công cụALIZE[114,115].Dữliệuđượcxửlý,tríchchọnđặctrưngdùngbộcôngcụSpro [116]màPraat [117]đểcó 2bộthamsốdùng chohuấnluyệnvànhậndạng.

Bộ tham số thứ nhất gồm 60 hệ số (19 MFCC + năng lượng = 20, đạo hàm bậcnhấtvàđạohàmbậchaicủa20hệsốnày).Đâylàcácthamsốđãđượcdùngphổbiếntrong các nghiên cứu về phân lớp âm nhạc theo thể loại Số hệ số MFCC như vậycũngchính làsốlượng baselinecủamôhìnhGMM/UBMcủabộcôngcụALIZE.

Bộ tham số còn lại bao gồm 61 hệ số, trong đó có 60 hệ số thuộc bộ tham số thứ nhất và tần số cơ bản (F0) Dân ca Việt Nam gắn liền với ngôn ngữ tiếng Việt, đặc biệt là đặc trưng biến thiên F0 Vì vậy, việc bổ sung tham số F0 nhằm mục đích đánh giá ảnh hưởng của tham số này đến kết quả nhận dạng.

𝑀thayđổitheoluỹthừa2:𝑀=2 𝑚 ,𝑚=4,5,…,13.Bảng2.7và2.8làkếtquảđịnhdanh trên 2 bộ tham số với giá trị củaM(trích dẫn ma trận nhầm lẫn cho 2 trườnghợpcóMnhỏnhấtvàlớnnhất).

Bảng 2.7 là ma trận nhầm lẫn đối với𝑀cho hai bộ tham số Trong trườnghợpsửdụngbộthamsốthứnhất,tỷlệđịnhdanhđúngtrungbìnhđạt65,0%.Hailànđiệu“b” và“i”được nhận nhầm lẫn nhau với tỷ lệ cao nhất Các làn điệu còn lạiđược nhận nhầm sang“b”với tỷ lệ cao và nhận nhầm sang“i”với tỷ lệ thấp hơn.Cóthểgiảithíchlýdo củađiềunàylàhailànđiệu“b”và“i”đềucócùngmộtnhịp.Hai làn điệu có tỷ lệ định danh đúng cao nhất 90,0% là“a”và“g”, làn điệu“d”cótỷ lệ định danh đúng thấp nhất là 30,0% Trong trường hợp sử dụng bộ tham số thứ2,tỷlệđịnhdanhđúng là62,0%,giảm3%so vớikhichưabổsungthamsốF 0

Bảng2.7MatrậnnhầmlẫnvớiMtrên2bộthamsố a)Sửdụng bộthamsốthứ nhất b)Sửdụng bộthamsốthứhai

60 tham số61 tham số ĐốivớicácgiátrịMcònlại,việcnhậndạngnhầmlànđiệu“b”sang“i”vàngượclại cũng vẫn tuân theo quy luật trên tức là, tỷ lệ nhận dạng nhầm sang nhau của hailànđiệunàylàlớnnhất.

Bảng 2.8 là ma trận nhầm lẫn với giá trị lớn nhất củaM= 8192 cho hai bộ thamsố. Trung bình tỷ lệ định danh đúng với bộ tham số thứ nhất là 61,0%, giảm đi 4,0%so với kết quảM= 16 trên cùng bộ tham số Còn trong trường hợp sử dụng bộ thamsốthứhai,tỷlệđịnhdanhđúnglà79,0%,caohơn17,0%sovớicùngthửnghiệmvớiMnhỏnhất Lànđiệu“b”và“i”vẫncótỷlệnhậnnhầm sangnhaulàlớnnhất.

Bảng2.8MatrậnnhầmlẫnvớiM92 trên2bộthamsố a)Sửdụng bộthamsốthứ nhất b)Sửdụng bộthamsốthứhai

Hình 2.5 là kết quả định danh cho 2 bộ tham số với số thành phần GaussMthayđổi theo luỹ thừa của 2 VớiMthay đổi từ 16 đến 128, tỷ lệ định danh đúng của bộthamsốthứnhấtcaohơnsovớibộthamsốthứhai.Tuynhiên,khiMthayđổitừ256đến 8192 thì tỷ lệ định danh đúng của bộ tham số thứ hai lại cao hơn so với bộ thamsố thứ nhất Nhìn chung, với bộ 61 hệ số, tỷ lệ định danh đúng tăng khi tăngM Vớibộ tham số gồm 60 hệ số, tỷ lệ định danh đúng nhìn chung cũng tăng lên theoMchođếnM=2048,songtỷlệnàylạigiảmkhiMtiếptụctăngtừ 4096đến 8192.

Hình2.5 Kếtquảđịnhdanhdùng GMMvới sốthànhphầnGaussM8192

Với bộtham sốthứhai,khiMtăngtừgiátrịnhỏnhấtM=16đếngiátrịlớnnhất

T ỷl ện hậ n dạ ng đú ng t ru ng bì nh (% ) trong phạm viM= 16 đếnM= 512 là lớn và đạt 13,0%, trong khi đó độ tăng tỷ lệnàylạilànhỏtrongphạmviM=1024đếnM=8192vàchỉđạt4,0%.

Với bộ tham số thứ nhất, khiMtăng từ 16 đến 2048, tỷ lệ định danh đúng tăng6,0%. KhiMcó giá trị lớn nhất (M= 8192), tỷ lệ định danh lại giảm đi 4,0% so vớitrường hợpMcó giá trị nhỏ nhấtM= 16 Do đó, việc lựa chọn số thành phần GaussMcần phải được cân nhắc tuỳ theo đặc trưng của bộ tham số đưa vào mô hình và độchínhxácđịnhdanhcầnđạtđược.Mặtkhác,việclựachọnMcũngtuỳthuộcvàogiớihạnthờigiantín htoán, nếuMcànglớnthìthờigiantínhtoáncàngtăng.

KếtquảcũngchothấyảnhhưởngquantrọngcủathamsốF0đếnđộchínhxácđịnhdanh.KhiM=8192 ,tỷlệđịnhdanhchínhxáctănglênlớnnhấtlà18,0%nếusửdụngthamsốF 0 Ítnhất,tỷlệđịnhdanh chínhxáccũngtăngđược1,0%khisửdụngthamsốF0v ớ i M=2048.

2.3.3 Trườnghợp3:Phânlớp,định danhChèo vàQuanhọ

Nghiên cứu sử dụng bộ dữ liệu DANCA với 1000 tập tin âm thanh của 50 làn điệu thuộc hai loại hình dân ca Chèo và Quảnh Hộ Dữ liệu được xử lý, trích chọn đặc trưng với công cụ Spro trên toàn bộ dữ liệu huấn luyện để có bộ tham số đặc trưng gồm 60 hệ số (19 MFCCs + năng lượng = 20, đạo hàm bậc nhất và bậc hai của 20 hệ số này) Bộ tham số này được đưa vào mô hình GMM để huấn luyện và nhận dạng với số thành phần Gauss M thay đổi theo lũy thừa 2 từ 16 đến 4096 Mô hình GMM được cài đặt trong bộ công cụ ALIZE.

Phân lớp và định danh tự động được thực hiện theo phương pháp đánh giá chéo,trong đó 80% dữ liệu được dùng cho huấn luyện, còn 20% dữ liệu được dùng chonhậndạng.Kếtquảcuốicùnglàtrungbìnhcủa 5lầnđánhgiáchéo.

Hình 2.6 là thống kê tỷ lệ nhận dạng đúng trong phân lớp sơ bộ đối với hai loạihìnhdâncaChèovàQuanhọvớisốthànhphầnGaussMthayđổitheoluỹthừa2,từ16đến4096. TỷlệphânlớpđúngphụthuộcvàosựthayđổicủaMvàđạtcaonhấtlà93,8%đốivớiloạihìnhdâncaCh èokhiM=4096,cònđốivớiloạihìnhdâncaQuanhọthìtỷlệnàyđạt caonhấtlà88,20%khiM=2048.

Kếtquảcủaquátrìnhphânlớpsơbộsẽđượcdùnglàmthôngtinphụcvụchophânlớpchitiết.Trongt rườnghợpnày,dữliệuđưavàonhậndạngsẽđượcxácđịnhlàlànđiệu nào trong Chèo hoặc Quan họ Nghiên cứu cũng được tiến hành với số thànhphầnGaussMthayđổitừ16đến4096theoluỹthừa2.Matrậnnhầmlẫnđốivớiđịnhdanhcáclànđi ệuChèovớigiátrịđầutiêncủaMđược chotrong Bảng2.9.

Bảng 2.10 là ma trận nhầm lẫn khi định danh làn điệu Quan họ với giá trịM 16.Trong trường hợp này, các làn điệu Quan họ có tỷ lệ định danh đúng 100% làQH_CVGCTQ và làn điệu QH_VBM, làn điệu có tỷ lệ định danh đúng thấp nhất làQH_CTXđạt45,0%.Tỷlệđịnhdanhđúngtrungbìnhlà78,0%,caohơnsovớiđịnhdanhcáclàn điệuChèovớicùnggiátrịM.

Kết quả định danh làn điệu Chèo và Quan họ với giá trị lớn nhất củaM 4096đượcchotrongBảng2.11vàBảng2.12.Bảng2.11làmatrậnsainhầmkhiđịnhdanhcác làn điệu Chèo Các làn điệu đều có tỷ lệ định danh đúng khá cao, cao nhất là cáclànđiệuCH_DTTDvàCH_LNCđạt100%.LànđiệuCH_CNGMcótỷlệđịnhdanhđúng thấp nhất cũng đạt 65,0% Trung bình tỷ lệ định danh đúng trong trường hợpnàylà81,6%.

Bảng 2.12 là ma trận nhầm lẫn khi định danh làn điệu Quan họ với số thành phầnGaussM=4096.Cónhiềulànđiệuđạttỷlệđịnhdanhđúng100%nhưQH_CVGCTQ,Q H _ D B B M C G , Q H _ D C S C , Q H _ N M K N , Q H _ T E T C L v à

QH_VBM Tuy nhiên, có làn điệu chỉ đạt tỷ lệ định danh đúng là 50,0% nhưQH_CTX Hầu hết các làn điệu đều có sự nhận nhầm lẫn nhau, đặc biệt làn điệuQH_NGMD có tỷ lệ nhận nhầm sang các làn điệu QH_CVGCTQ, QH_DQNB vàQH_GDCC với tỷ lệ nhận nhầm cao nhất là 70,0% Tuy nhiên, tỷ lệ định danh đúngtrungbìnhtrongtrườnghợpnàylạicaohơnsovớitrườnghợpđịnhdanhcáclànđiệuChèosử dụngcùng hệsốM,vàđạt85,6%.

Hình2.7 Tổng hợpkếtquảphânlớp chitiết vớiM4096

Hình2.7làtổnghợpkếtquảđịnhdanhđúngtrungbìnhcáclànđiệuChèovàQuanhọ với số thành phần GaussMthay đổi theo quy luậtM = 2 m , m= 4, 5, …, 12 Đốivới các làn điệu Chèo, tỷ lệ định danh đúng trung bình gần như tăng tuyến tính theogiá trị củaM Còn với các làn điệu Quan họ, tỷ lệ định danh đúng trung bình khôngthayđổitronghaigiátrịđầucủaM,vớihaigiátrịtiếptheocủaMthìtỷlệđịnhdanhđúng trung bình có giảm đi, nhưng từ giá trịM= 256 thì tỷ lệ định danh đúng trungbìnhtănglêntheoMvàđạt85,6%khiM=4096sovới76,6%khiM=128.

PhânlớpvàđịnhdanhmộtsốlànđiệudâncaViệtNamdùnghọcsâu

CácnghiêncứutrongphầnnàysửdụngbộdữliệuDANCAgồm25lànđiệuChèovà 25 làn điệu Quan họ Đây cũng chính là bộ dữ liệu đã được sử dụng trong cácnghiêncứuđãđượctrìnhbàytrong mục2.3. Để tăng kích thước dữ liệu dùng cho huấn luyện, xác thực và nhận dạng, luận ánđãsửdụngphươngpháptăngcườngdữliệubằngcáchchiamỗifiletrongtậpdữliệuthànhhainửa, mỗinửacóđộdài10giây.ViệcchiamộtlànđiệuQuanhọhoặcChèothành hai phần thì cả hai phần đều thể hiện cho một làn điệu nhưng khác nhau về catừ và giai điệu Do đó, kết quả của việc phân chia này là số lượng file trong mỗi lànđiệu Chèo và Quan họ được tăng lên gấp đôi Tổng số file trong bộ dữ liệu DANCAsaukhi tăngcườngdữ liệulà2.000file.

Công cụ LibROSA là một thư viện trong Python chuyên phân tích và trích xuất các đặc trưng từ dữ liệu âm thanh hoặc âm nhạc Các đặc trưng được chiết xuất bao gồm 157 hệ số phổ Mel và 26 tham số liên quan đến cao độ.

(6), độ tương phản phổ (7) và âm sắc(12)).

Trong lĩnh vực xử lý âm thanh, các hệ số phổ Mel là đặc điểm biểu thị cho cườngđộâmthanhởcáckhoảngtầnsốkhácnhaucótrongtínhiệu.Trongtínhiệuâmnhạc,ngoài các đặc tính vốn có của âm thanh, còn có một số tham số đặc trưng khác nhưcaođộ,trườngđộ,độtươngphảnphổvàâmsắc.KháiniệmtonnetzđượcLeonhardEulermôtảlầnđầutiênvàonăm1739[26].Đólàcáchbốtrícác nốttrongâmnhạc(cóthểgọilàlướihoặcbiểuđồcácnốt),thểhiện mối quan hệ giữa các nốt và thường được dùng trong hòa âm Tonnetz cho thấy sựthay đổi của các nốt nhạc, của các hợp âm trong một tác phẩm âm nhạc và mối quanhệhàihoàgiữa các nốtnhạc. Độ tương phản phổ là sự khác biệt giữa đỉnh của phổ và vùng lõm của phổ trongmỗi băng con Trong tín hiệu âm nhạc, các đỉnh của phổ tương ứng với các thànhphần hài hòa và độ trầm của phổ tương ứng với các thành phần không hài hòa (hoặcnhiễu) Do đó, đặc trưng này phản ánh sự phân bố tương đối của các đặc trưng hàihòa và không hài hòa trong phổ Các đặc trưng MFCC (Hệ số Cepstral tần số Mel)thu được bằng cách dựa trên phân bố phổ trung bình không đủ để thể hiện các đặctính của phổ âm nhạc Nghiên cứu của [19] khi phân loại 5 thể loại nhạc (Baroque,Lãng mạn, Pop, Jazz và Rock) có sử dụng đặc trưng tương phản phổ cho thấy, tỷ lệchínhxáctrung bình là 82,3%,sovới74,1%khisử dụngMFCC. Âmnhạclàsựtiếpnốicủacácâmthanhđượcsắpxếptheotrìnhtựthờigian.Cácđặc trưng dựa trên âm sắc là một công cụ mạnh mẽ để phân tích âm nhạc Mọi quytrìnhnhận dạnghợpâmđềudựatrênmộtsốloạibiểudiễnâmsắc[127,128].

Các tham số đặc trưng được trích chọn được chia thành 2 bộ tham số Bộ tham sốthứ nhất (S1) bao gồm 157 hệ số phổ Mel và bộ tham số thứ hai (S2) bao gồm bộthamsốS1và26hệsốbổsungnhưtrongBảng2.14.Sốkhungchomỗifile(10giây)đượclấylàsốlượ ngthamsố,nghĩalàbằng157khung(S1)hoặc183khung(S2).Vìvậy,tốcđộkhungtươngứnglà15, 7khung/shoặc18,3khung/ s.ĐộrộngkhungđượclấylàmsốlượngmẫuđểtínhFFTvàbằng2048mẫu.

Kiến trúc của CNN được sử dụng trong nghiên cứu thuộc về CNN sâu, đã có kếtquả tốt trong một nghiên cứu khác về nhận dạng cảm xúc đối với tiếng Việt[129].Điểm chung của mô hình CNN nhận dạng cảm xúc và mô hình CNN phân lớp,địnhdanhâmnhạcsửdụngtrongtrườnghợpnàylàcácthamsốđặctrưngchotiếngnói và âm nhạc được chuyển đổi thành ảnh Nói cách khác, cả nhận dạng cảm xúc vàphânlớp,địnhdanh âm nhạc đềuđượccoilàbàitoánnhậndạng ảnh.

Bảng 2.15 liệt kê các tham số của mô hình CNN được sử dụng để huấn luyện và nhận dạng trong nghiên cứu phân loại Đối với nhiệm vụ phân loại Chèo và Quan họ, số đầu ra của mô hình là 2 Còn đối với nhiệm vụ định danh làn điệu Chèo hoặc Quan họ, số đầu ra của mô hình là 25.

SetsofparameterS2(18 3parameters) OutputShape Param# OutputShape Param# bn_0_freq(BatchNor malization) (None, 157,157, 1) 628 (None, 183,183, 1) 732 conv1(Conv2D) (None,157,157,64) 640 (None,183,183,64) 640 bn1(BatchNormalization) (None,157,157,64) 256 (None,183,183,64) 256 elu(ELU) (None,157,157,64) 0 (None,183,183,64) 0 pool1(MaxPooling2D) (None,78,78,64) 0 (None,91,91,64) 0 dropout(Dropout) (None,78,78,64) 0 (None,91,91,64) 0 conv2(Conv2D) (None,78,78,128) 73856 (None,91,91,128) 73856 bn2(BatchNormalization) (None,78,78,128) 512 (None,91,91,128) 512 elu_1(ELU) (None,78,78,128) 0 (None,91,91,128) 0 pool2(MaxPooling2D) (None,39,39,128) 0 (None,45,45,128) 0 dropout_1(Dropout) (None,39,39,128) 0 (None,45,45,128) 0 conv3(Conv2D) (None,39,39,128) 147584 (None,45,45,128) 147584 bn3(BatchNormalization) (None,39,39,128) 512 (None,45,45,128) 512 elu_2(ELU) (None,39,39,128) 0 (None,45,45,128) 0 pool3(MaxPooling2D) (None,19,19,128) 0 (None,22,22,128) 0 dropout_2(Dropout) (None,19,19,128) 0 (None,22,22,128) 0 conv4(Conv2D) (None,19,19,128) 147584 (None,22,22,128) 147584 bn4(BatchNormalization) (None,19,19,128) 512 (None,22,22,128) 512 elu_3(ELU) (None,19,19,128) 0 (None,22,22,128) 0 pool4(MaxPooling2D) (None, 6,6,128) 0 (None,11,11,128) 0 dropout_3(Dropout) (None, 6,6,128) 0 (None,11,11,128) 0

73792 256 elu_4(ELU) (None, 6, 6,64) (None,11,11,64) 0 pool5(MaxPooling2D) (None, 1, 1,64) (None, 5, 5,64) 0 dropout_4(Dropout) (None, 1, 1,64) (None, 5, 5,64) 0 flatten(Flatten) dense(Dense)

Hình2.18 Cấu hìnhcủamôhình CNNvới157thamsốdùngtrongđịnhdanh

Hình 2.18 là thông tin chi tiết về cấu hình của CNN được vẽ bằng Netron [130] - một chương trình dùng để xem cấu trúc mô hình học máy bằng cách hiển thị biểu đồquanhệgiữacáclớp,khối,và cáckếtnốicủamôhình.

Mạng LSTM phù hợp để phân loại thể loại âm nhạc do đặc điểm xử lý dữ liệu tuần tự (liên quan đến thời gian) của mạng LSTM và sự biến thiên theo thời gian của tín hiệu âm nhạc Do đó, mạng LSTM có thể được sử dụng để phân lớp thể loại âm nhạc.

2dùngtrongđịnhdanhlànđiệuChèovàQuanhọ.Hình2.19làcấuhìnhcủaLSTMvới183thamsốđ ược vẽbằngNetron.

Bảng2.16aCáctham sốcủaLSTM-1dùngtrongđịnhdanh

157 parameters 183 parameters OutputShape Param# OutputShape Param# bn_0_freq(BatchNor malization) (None, 157,157) 628 (None, 183,183) 732 lstm(LSTM) (None, 157,256) 423936 (None, 183,256) 450560

Dropout(Dropout) (None, 157,256) 0 (None, 183,256) 0 lstm_1(LSTM) (None, 256) 525312 (None, 256) 525312 dropout_1(Dropout) (None, 256) 0 (None, 256) 0 dense(Dense) (None, 128) 32896 (None, 128) 32896 activation(Activation) (None, 128) 0 (None, 128) 0 dropout_2(Dropout) (None, 128) 0 (None, 128) 0 dense_1(Dense) (None, 25) 3225 (None, 25) 3225

157 parameters 183 parameters OutputShape Param# OutputShape Param# bn_0_freq(BatchNor malization) (None, 157,157) 628 (None, 183,183) 732 lstm(LSTM) (None, 157,256) 423936 (None, 183,256) 450560 Dropout(Dropout) (None, 157,256) 0 (None, 183,256) 0 lstm_1(LSTM) (None, 512) 1574912 (None, 512) 1574912 dropout_1(Dropout) (None, 512) 0 (None, 512) 0 dense(Dense) (None, 128) 65664 (None, 128) 65664 activation(Activation) (None, 128) 0 (None, 128) 0 dropout_2(Dropout) dense_1(Dense) (None, 25) 3225 (None, 25) 3225

Hình2.19 Cấu hìnhcủaLSTMvới 183thamsốdùngtrongđịnhdanh

134]làsựkếthợpgiữaCNNvàRNN(LSTM),thườngđượcsửdụngđểxâydựngcácmôhìnhxửlýdữl iệutuầntựnhưtínhiệuâmthanh,chuỗivănbản…Cấu trúc của CRNN được Duyu Tang và cộng sự [133] sử dụng lần đầu tiên trongphân loại tài liệu, sau đó Zhen Zuo và cộng sự đã ứng dụng cấu trúc này trong phânloại ảnh [134] Sigtia và cộng sự cũng sử dụng CRNN trong phân lớp thể loại âmnhạcvàonăm2016[135]vàtrong[132]ChoivàcộngsựđãkhẳngđịnhhiệuquảcủaCRNN trong việc phân lớp âm nhạc theo thể loại Bảng 2.17a là các tham số củamạngCRNN- 1dùngtrongphânlớpvàBảng2.17blàcácthamsốcủamạngCRNN-

2dùngtrongđịnhdanh.Hình2.20làcấuhìnhcủaCRNNvới157thamsốdùngtrongđịnhdanhđược vẽbằngNetron.

Hình2.20 Cấu hìnhcủaCRNNvới 157tham sốdùngtrongđịnhdanh

Bảng2.17aCáctham sốcủaCRNN-1 dùngtrongphânlớp

# input_1(InputLayer) (None,157,157,1) (None,183,183,1) conv_1 (Conv2D) (None,157,157,64) 640 (None,183,183,64) 640 input_1[0][0] conv_2 (Conv2D) (None,157,157, 128) 73856 (None,183,183,128) 73856 conv_1[0][0] conv_3 (Conv2D) (None,157,157,256) 295168 (None,183,183,256) 295168 conv_2[0][0] bn_3

(BatchNormalization) (None,157,157,256) 1024 (None,183,183,256) 1024 conv_3[0][0] maxpool_3

(MaxPooling2D) (None,78,78,256) 0 (None,91,91,256) 0 bn_3[0][0] conv_4 (Conv2D) (None,78,78,256) 590080 (None,91,91,256) 590080 maxpool_3[0][0] conv_5 (Conv2D) (None,78,78,512) 1180160 (None,91,91,512) 1180160 conv_4[0][0] bn_5

(BatchNormalization) (None,78,78,512) 2048 (None,91,91,512) 2048 conv_5[0][0] maxpool_5

(MaxPooling2D) (None,39,39,512) 0 (None,45,45,512) 0 bn_5[0][0] conv_6 (Conv2D) (None,39,39,512) 2359808 (None,45,45,512) 2359808 maxpool_5[0][0] conv_7 (Conv2D) (None,39,39,512) 2359808 (None,45,45,512) 2359808 conv_6[0][0] bn_7

(BatchNormalization) (None,39,39,512) 2048 (None,45,45,512) 2048 conv_7[0][0] reshape(Reshape) (None,39,19968) 0 (None,45,23040) 0 bn_7[0][0] fc_9(Dense) (None,39,128) 2556032 (None,45,128) 2949248 reshape[0][0] lstm_10(LSTM) (None,39,128) 131584 (None,45,128) 131584 fc_9[0][0] lstm_10_back(LSTM) (None,39,128) 131584 (None,45,128) 131584 fc_9[0][0] add (Add) (None,39,128) 0 (None,45,128) 0 lstm_10[0][0] lstm_10_back[0][0] lstm_11(LSTM) (None,39,128) 131584 (None,45,128) 131584 add[0][0] lstm_11_back

(LSTM) (None,39,128) 131584 (None,45,128) 131584 add[0][0] concatenate

The LSTM network architecture comprises an LSTM layer with 256 hidden units, followed by a dropout layer with a dropout rate of 0.2 The outputs of the LSTM layer and dropout layer are then concatenated, flattened, and passed through another dropout layer with a dropout rate of 0.2 This is followed by a dense layer with 512 hidden units, another dropout layer with a dropout rate of 0, and a final dense layer with 2 output units.

# input_1(InputLayer) (None,157,157,1) 0 (None,183,183,1) 0 conv_1 (Conv2D) (None,157,157,64) 640 (None,183,183,64) 640 input_1[0][0] conv_2 (Conv2D) (None,157,157,128) 73856 (None,183,183,128) 73856 conv_1[0][0] conv_3 (Conv2D) (None,157,157,256) 295168 (None,183,183,256) 295168 conv_2[0][0] bn_3

(BatchNormalization) (None,157,157,256) 1024 (None,183,183,256) 1024 conv_3[0][0] maxpool_3

(MaxPooling2D) (None,78,78,256) 0 (None,91,91,256) 0 bn_3[0][0] conv_4 (Conv2D) (None,78,78,256) 590080 (None,91,91,256) 590080 maxpool_3[0][0] conv_5 (Conv2D) (None,78,78,256) 590080 (None,91,91,256) 590080 conv_4[0][0]

(BatchNormalization) (None,78,78,256) 1024 (None,91,91,256) 1024 conv_5[0][0] maxpool_5

(MaxPooling2D) (None,39,39,256) 0 (None,45,45,256) 0 bn_5[0][0] conv_6 (Conv2D) (None,39,39,128) 295040 (None,45,45,128) 295040 maxpool_5[0][0] conv_7 (Conv2D) (None,39,39,64) 73792 (None,45,45,64) 73792 conv_6[0][0] bn_7

(BatchNormalization) (None,39,39,64) 256 (None,45,45,64) 256 conv_7[0][0] reshape(Reshape) (None,39,2496) 0 (None,45,2880) 0 bn_7[0][0] fc_9(Dense) (None,39,64) 159808 (None,45,64) 184384 reshape[0][0] lstm_10(LSTM) (None,39,64) 33024 (None,45,64) 33024 fc_9[0][0] lstm_10_back(LSTM) (None,39,64) 33024 (None,45,64) 33024 fc_9[0][0] add (Add) (None,39,64) 0 (None,45,64) 0 lstm_10[0][0] lstm_10_back[0][0] lstm_11(LSTM) (None,39,64) 33024 (None,45,64) 33024 add[0][0] lstm_11_back

(LSTM) (None,39,64) 33024 (None,45,64) 33024 add[0][0] concatenate

The LSTM layer (lstm_11) processes the input sequence, followed by a dropout layer (dropout2) for regularization The outputs from the LSTM layers are concatenated (concatenate) and flattened (flatten) into a single vector, which is then passed through another dropout layer (dropout2) Finally, a dense layer (dense) with 512 units and a dropout layer (dropout3) are applied before the output layer (dense_1) with 2 units.

Kếtchương2

Chương 2 đã trình bày kết quả phân lớp và định danh một số làn điệu Chèo vàQuan họ sử dụng mạng nơ-ron sâu là CNN, LSTM và CRNN Kết quả phân lớp vàđịnhdanhchothấy,mạngCNNcókếtquảcaohơnsovớiLSTMvàCRNN.K ế t quảphân lớp và định danh dùng mạng nơ-ron sâu đều cao hơn so với kết quả dùng môhìnhGMMtrêncùngbộdữ liệu.

1 Chu Bá Thành, Trịnh Văn Loan, Nguyễn Hồng Quang (2016),“Định danh tựđộngmộtsốlànđiệudâncaViệtNam”,KỷyếuHộithảoquốcgialầnthứXIX:Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông (@), trang92-97.

2 ChuBáThành,TrịnhVănLoan,NguyễnHồngQuang(2017),“MôhìnhGMMđịnhdanht ựđộngmộtsốlànđiệudâncaQuanhọBắcNinh”,KỷyếuHộinghịquốc gia lần thứ X về Nghiên cứu cơ bản và ứng dụng công nghệ thông tin(FAIR),ĐàNẵng,trang417-422.

3 Chu Bá Thành, Trịnh Văn Loan, Nguyễn Hồng Quang (2018),“Phân lớp, địnhdanh Chèo và Quan họ”, Kỷ yếu Hội nghị quốc gia lần thứ XI về Nghiên cứucơbảnvàứng dụngcôngnghệthôngtin (FAIR),HàNội,trang395-403.

5 Thanh, C B., Van Loan, T., & Quang, N H (2020),“Some new results onautomatic identification of Vietnamese folk songs Cheo and Quanho”,

6 Thành,C.B.,VanLoan,T.,&LeThuy,D.T.(2022),“Automaticidentificationof some

Vietnamese folk songs Cheo and Quanho using Convolutional NeuralNetworks”, Journal of Computer

Science and Cybernetics, vol 38, no 1, pp.63-83.

PHÂN LỚP THỂ LOẠI ÂM NHẠC TRÊN BỘ DỮ LIỆU NHẠC VIỆT,GTZANVÀFMADÙNGHỌC SÂU

CácđộđoAccuracy,Precision,Recallvàf1-score

- Accuracy [137]:Độ chính xác của mô hình là tỉ lệ giữa số mẫu được dự đoánđúng và tổng số mẫu trong tập dữ liệu kiểm thử Accuracy phù hợp với các bài toáncókíchthướccáclớpdữliệulàtươngđốiđềunhauvàđộđonàyđượctínhtheo(3.1):

𝒕𝒑(truepositive):số mẫu mangnhãnpositiveđượcnhậnđúngvào lớppositive

Precision và Recall có giá trị trong khoảng [0,1], hai giá trị này càng gần với 1 thìmôhìnhcàngchínhxác.Precisioncàngcaođồngnghĩavớicácđiểmđượcphânloạicàngchính xác.Recallcàngcaothểhiệnchoviệc ítbỏsótcácđiểmdữ liệuđúng.

- f1-score [137]:có thể được hiểu là giá trị trung bình giữa Precision và

Recall,trongđóf1-scoređạtgiátrịtốtnhấtlà1vàđiểmkémnhấtlà0.Côngthứcchođộđonàylà (3.4):

- Đường cong ROC (Receiver Operator Characteristic) [137]:Là thước đođánh giá các bài toán phân lớp nhị phân Đó là đường cong xác suất biểu diễn quanhệ TPR so với FPR ở các giá trị ngưỡng khác nhau và về cơ bản để tách “tín hiệu”khỏi“nhiễu”.Nóicáchkhác,ROCchothấyhiệusuấtcủamộtmôhìnhphânlớpởtấtcảcácn gưỡngphânloại.

- Diện tích phần dưới đường cong ROC là AUC (Area Under Curve) [137]:Làđộđokhảnăngphânbiệtcáclớpcủabộphânlớpvàđượcsửdụngnhưlàkếtquảtổng hợp của đường cong ROC Khi AUC có giá trị càng lớn, hiệu suất của mô hìnhtrongviệcphânbiệtcáclớpPositivevàNegativecàngtốt.KhiAUC=1,bộphânlớpcóthểphânbi ệtchínhxácchotấtcảcácđiểmthuộcPositivevàNegative.Tuynhiên,nếuAUClà0,thìbộphânlớp sẽdựđoántấtcảNegativelàPositivevàtấtcảPositivelàNegative.

PhânlớpnhạcViệtdùngRAN(ResidualAttentionNetwork)

Bộ dữ liệu Music Classification được đưa ra tại Zalo AI Challenge 2018 [108].Đâylàbộdữliệugồm10thểloạinhạcViệtNamđượcgánnhãntừClass1đếnClass

10.Sốlượngfiletrongmỗithểloạilàkhôngđềunhau,tổngsốfiletrongbộdữliệulà867file.H ình 3.1là chitiếtsốlượngfiletươngứngvới 10thểloại nhạc.

Như đã trình bày ở trên, do dữ liệu trong mỗi thể loại là không cân bằng về sốlượng nên đôi khi gây ra kết quả không mong muốn (Các mẫu có số lượng nhiều sẽcho kết quả nhận dạng rất tốt và ngược lại) Để giải quyết vấn đề mất cân bằng dữliệu,trongquátrìnhchuyểnđổidữliệuâmthanh(dạngMP3)thànhảnhphổ,dữliệuảnh cho các lớp sẽ được cân bằng Đối với các Class có ít dữ liệu hơn, dữ liệu âmthanh sẽ được chia thành nhiều ảnh hơn. Ngược lại, đối với các Class có nhiều dữliệu,dữ liệuâmthanhsẽtáchthànhít ảnhhơn,cụthể:

- CácClass1,9và10làcácnhãncólượngdữliệurấtnhỏnênsẽchiachúngthành91ảnhphổ,tươ ngứngvớithờiđiểmbắtđầutừ0đến90giây,bằngbướctrượt1giây(mất30giâyđoạnâmthanh),dịch chuyển1giây,sauđólấymộtđoạnâmthanhtrong30giâytiếptheo).

- Class 8 là nhãn có số lượng dữ liệu cao nhất và vượt trội so với các nhãn còn lạinêncácfilecónhãn8sẽđượcchiathành4ảnhphổtươngứngvới4đoạnâmthanh

Max Pooling and Full Connected

- Các Class còn lại là các nhãn trung bình và có số lượng dữ liệu tương đối bằngnhau nên các file có các nhãn này sẽ được chia thành 19 ảnh phổ tương ứng với 19đoạn âm thanh với thời gian dịch chuyển 5 giây cho đoạn âm thanh tiếp theo. Cuốicùng,sốlượngảnhphổcủacácClassđượchiểnthịtrongHình3.2.Mỗifoldsẽcó 12.441ảnhphổ.

Hình3.2 Sốlượng ảnhphổtrongtậpdữ liệuhuấnluyện

Trong nghiên cứu này, RAN được sử dụng để phân lớp các thể loại nhạc trong bộdữ liệu Zalo AI Challenge 2018 dựa trên ảnh phổ của tín hiệu âm nhạc Hình 3.3 làkiếntrúccủaRAN đượcđềxuấtsử dụngtrongphânlớp thểloại nhạcViệt.

Dữ liệu được chia thành 5 phần bằng phương pháp đánh giá chéo và đảm bảo cân bằng dữ liệu giữa các lần huấn luyện Mô hình được huấn luyện tuần tự trên 4/5 dữ liệu và 1/5 dữ liệu được dùng để xác thực Quá trình huấn luyện được lặp lại 5 lần với 5 giá trị khởi tạo ngẫu nhiên cho trọng số mô hình Thuật toán tối ưu SGD với tỷ lệ học 0,01 được sử dụng trong quá trình huấn luyện Kết quả dự đoán trên bộ dữ liệu xác thực thể hiện độ chính xác cao nhất được chọn làm mô hình đại diện.

Fold1,Fold2,Fold3,Fold4 Fold5 56,24

Fold1,Fold2,Fold3,Fold5 Fold4 54,41

Fold1,Fold2,Fold4,Fold5 Fold3 47,47

Fold1,Fold3,Fold4,Fold5 Fold2 48,59

Fold2,Fold3,Fold4,Fold5 Fold1 49,18

Bảng 3.1 chỉ ra kết quả phân loại của ảnh phổ trên tập dữ liệu được xác thực tương đối thấp Phân tích lỗi đã chỉ ra: Các nhãn 2, 3, 7 và 8 trong tập dữ liệu gốc bị gán nhãn sai rất nhiều Do đó, số lượng ảnh phổ trong các nhãn 2, 3, 7 và 8 sẽ được tăng lên để cải thiện độ chính xác của phân loại.

Thực hiện bổ sung các ảnh được tạo ra thêm từ các nhãn này vào bộ dữ liệu huấnluyện, ta được bộ dữ liệu mới gọi làfold_ext Bằng cách lựa chọn vị trí cắt dữ liệukhác với các ảnh hiện có, dữ liệu ảnh phổ trong tập dữ liệu (5 folds) sẽ tăng lên khánhiều,cụthể(Bảng3.2):

Bảng3.2 Độchínhxáccủatậpxácthựccho mỗilầnhuấnluyệnvớifold_ext

Label Total filesbeforeusing fold_ ext

Cácnhãn2,3,4:MỗifileMP3sẽtạothêm36ảnhkhácvớicácảnhtrướcđó(bằngcách chọn bước trượt 2 giây) Nhãn 8: Mỗi file sẽ tạo thêm 4 ảnh khác với các ảnhbanđầu(bằngcáchchọnbướctrượt15giây).Nhưvậy,tậpdữliệufold_extmớisẽ có tổng cộng 9.288 ảnh, trong đó nhãn 2 có 2.700 ảnh, nhãn 3 có 3.168 ảnh, nhãn 7có 1.692 ảnh và nhãn 8 có 1.728 ảnh Tập dữ liệu này được đưa vào huấn luyện vớicáchthứctươngtựnhưtrên.Bảng3.3làđộchínhxáccủatừngmôhìnhdựđoántrêntậpxácthực dựatrên ảnhphổvàfileâmthanh.

Bảng3.3Độchínhxáccủatậpxácthựctrênảnhphổvàtrênfile âmthanh

Tậpdữliệuhuấnluyện Độchínhxác(%)trê nảnh phổ Độ chính xác (%)trêncácfileâmthan h

Trên tập dữ liệu xác thực được phân tách chéo 5 lần, mô hình đạt độ chính xác cao nhất là 56,24% và 74,6% Khi áp dụng phân loại trên tập dữ liệu nhận dạng (test), độ chính xác đạt được lần lượt là 66,2% và 71,7% Đây là kết quả cạnh tranh và hứa hẹn khi so sánh với độ chính xác 70,1% của đội vô địch Zalo AI Challenge 2018 trên cùng một bộ dữ liệu.

Nghiênc ứ u p h â n l ớ p t h ể l o ạ i â m n h ạ c đ ố i v ớ i c á c b ộ d ữ l i ệ u G T Z A N v à FMA_SMALL

GZAN và FMA là hai bộ dữ liệu âm nhạc phân loại theo thể loại được sử dụng rộng rãi nhất trong các nghiên cứu về phân loại âm nhạc theo thể loại GZAN là bộ dữ liệu âm nhạc theo thể loại toàn diện đầu tiên và được ca ngợi như là MNIST trong âm nhạc Ngược lại, FMA là bộ dữ liệu âm nhạc theo thể loại mới nhất, toàn diện nhất, có chất lượng cao và phù hợp cho các nghiên cứu tiên tiến trong lĩnh vực âm nhạc.

Như sẽ trình bày trong nội dung dưới đây, các kết quả nghiên cứu phân lớp củaluậnánđốivớicácbộdữliệuGTZANvàFMA_SMALLđềuvượttrộisovớicáckếtquảnghiênc ứuphânlớpkháchiệncótrênthếgiới(Bảng1.5và1.6)vớicùnghaibộdữliệunày.

3.3.1 Nghiên cứuphânlớpđốivớiGTZAN Được đề xuất lần đầu tiên bởi G Tzanetakis và P Cook [32], GTZAN là bộ dữliệuđượccộngđồngâmnhạcthếgiớisửdụngrộngrãinhấtchođếnngàynay.Bộdữliệunàychứa1.000bảnnhạcđượcthuthậptừnhiềunguồnkhácnhau(CD,radio, ghi âm…), mỗi bản nhạc có độ dài 30s của 10 thể loại âm nhạc (Blues, Classical,Country, Disco, Hiphop, Jazz, Metal, Pop, Reggae và Rock) Mỗi thể loại có 100files,tấtcảcácfileđềucótầnsốlấymẫulà22.050Hz,16bit/mẫuvàđượcđịnhdạng

.wav Tổng dung lượng của bộ dữ liệu này là 1,14GB Bảng 3.4 là số lượng file củamỗithểloạinhạctrongbộdữliệuGTZAN.

Blues Classical Country Disco Hiphop Jazz Metal Pop Reggae Rock

Trong nghiên cứu này, các mô hình CNN, LSTM, GRU và CSN được sử dụng đểphânlớpcácthểloạiâmnhạctrongbộdữliệuGTZAN.Đầuvàochocácmôhìnhlàcácfileâmthan hđượcbiếnđổithànhcácảnhphổMeltươngứngcókíchthước(300 × 300 × 3) Mô hình CNN được sử dụng trong nghiên cứu này được thừa kế từ [29]còn LSTM được thừa kế từ nghiên cứu số 6 của luận án Mô hình CSN [59-61] sửdụng trong nghiên cứu số 8 của luận án đã thừa kế mô hình CSN ở nghiên cứu [62].Bảng3.5và 3.6lầnlượtlàcấuhìnhcủaCNNvàLSTM với300thamsố.

Layer(type) OutputShape Param # bn_0_freq(BatchNormalization) (None, 300, 300,1) 1200 conv1(Conv2D) bn1

LU) pool1(MaxPooling2D) dropout(Dropout)

(None, 300,300,64) (None, 300,300,64) (None, 300,300,64) (None, 150,150,64) (None, 150,150,64)

ELU) pool2(MaxPooling2D) dropout_1(Dropout)

(None, 150,150,128) (None, 150,150,128) (None, 150,150,128) (None, 75,75, 128) (None, 75,75, 128)

ELU) pool3(MaxPooling2D) dropout_2(Dropout)

(None, 75,75, 128) (None, 75,75, 128) (None, 75,75, 128) (None, 37,37, 128) (None, 37,37, 128)

ELU) pool4(MaxPooling2D) dropout_3(Dropout)

(None, 37,37, 128) (None, 37,37, 128) (None, 37,37, 128) (None, 12,12, 128) (None, 12,12, 128)

Layer(type) OutputShape Param # pool5(MaxPooling2D) dropout_4(Dropout)

0 0 flatten(Flatten) (None, 1024) 0 dense(Dense) (None,10) 10250

Layer(type) OutputShape Param # bn_0_freq(BatchNormalization) (None,300,300) 1200 lstm(LSTM) (None,300,128) 219648 dropout(Dropout) (None,300,128) 0 lstm_1(LSTM) (None,128) 131584 dropout_1(Dropout) (None,128) 0 dense(Dense) (None,128) 16512 activation(Activation) (None,128) 0 dropout_2(Dropout) (None,128) 0 dense_1(Dense) (None,10) 1290

CóthểnóimôhìnhGRU[55]làhậuduệcủaLSTM.GRUlưutrữvàlọcthôngtinbằng cách sử dụng các cổng cập nhật và đặt lại, giữ lại các thông tin liên quan vàchuyển nó xuống bước tiếp theo của mạng Điều này đã loại bỏ được hiện tượnggradient biến mất (vanishing gradient) Bảng 3.7 và 3.8 theo thứ tự là cấu hình củaGRUvàCSNvới300thamsố.

Layer(type) Output Shape Param# bn_0_freq(BatchNormalization) (None,300,300) 1200 gru(GRU) (None,300,356) 702744 dropout(Dropout) (None,300,356) 0 gru_1(GRU) (None,356) 762552 dropout_1(Dropout) (None,356) 0 dense(Dense) (None,256) 91392 dense_1(Dense) (None,256) 65792 activation(Activation) (None,256) 0 dropout_2(Dropout) (None,256) 0 dense_1(Dense) (None,10) 2570

The convolutional neural network architecture consists of five convolutional layers, each followed by a pooling layer The first layer (conv1) takes as input a 300x300 RGB image and outputs a 150x150 feature map with 64 channels The next layer (conv2) takes the output of conv1 and produces a 75x75 feature map with 16 channels This is followed by three more convolutional layers (conv3, conv4, and conv5), each reducing the spatial dimensions of the feature map while increasing the number of channels The final layer, primarycap_conv2d, is a convolutional layer that outputs a 10x10 feature map with 16 channels.

(Conv2D) (None,5,5, 256) 332032 conv5[0][0] primarycap_reshape

(Reshape) (None, 800, 8) 0 primarycap_conv2d[0][0] primarycap_squash

(Lambda) (None, 800, 8) 0 primarycap_reshape[0][0] digitcaps(CapsuleLayer) (None, 10,16) 1024000 primarycap_squash[0][0] input_5(InputLayer) (None,10) 0 mask_4(Mask) (None,160) 0 digitcaps[0][0], input_5[0][0] capsnet(Length) (None,10) 0 digitcaps[0][0] decoder(Sequential) (None, 300, 300,1) 11647120 mask_4[0][0]

Nghiêncứusửdụngcácphươngpháptăngcườngdữliệunhư:chiađôicácfileâmthanh, thay đổi cao độ theo nửa cung và cộng nhiễu trắng Chi tiết về các tập dữ liệuđược sử dụng trong nghiên cứu được trình bày trong Bảng 3.9 Mỗi tập dữ liệu đượcchia thành 10 phần bằng nhau để đánh giá chéo Một trong 10 phần được dùng chonhậndạng,chínphầncònlạiđượcsửdụngchohuấnluyệnvàxácthựcvớitỷlệphầnhuấnluyện:xá cthựclà8:1(huấnluyệnvàxác thựcđược thựchiện9lần).

Bảng3.9 Môtảcácbộdữliệuđượcsử dụng trongnghiêncứu

S5+S1(cộngnhiễu2)+S1(tăngcaođộnửacung+cộngnhiễu2) + S1(giảmcaođộnửacung+ cộngnhiễu2)

S7+S1(tăngcaođộnửacung+cộngnhiễu3)+S1(giảmcaođộn ửacung+ cộngnhiễu3)

Bảng 3.10 trình bày kết quả phân lớp trên tập dữ liệu S2n1, sử dụng các mô hình LSTM, CNN, GRU và CSN Các giá trị lớn nhất được in đậm, trong khi các giá trị nhỏ nhất được tô màu đỏ Tập dữ liệu này bao gồm 4.000 tệp âm thanh được tăng cường từ dữ liệu gốc 1.000 tệp bằng cách chia đôi các tệp âm nhạc và thêm nhiễu với hệ số Nc=0,03.

Pre Rec F1 Pre Rec F1 Pre Rec F1 Pre Rec F1

Pre: Precision Rec:Recall F1: f1-score

Bảng 3.10 cho thấy, đối với 3 mô hình LSTM, CNN và GRU, thể loại ClassicalđềucóPrecisionvàf1-scorelàcaonhất,cònđốivớimôhìnhCSNthì cácgiátrịnàylại thuộc về thể loại Jazz Thể loại có Recall cao nhất thuộc về Metal (LSTM, CNN)và Jazz (GRU, CSN) Trên hai mô hình LSTM và CNN, các giá trị thấp nhất củaPrecision và f1-score thuộc về thể loại Rock, còn giá trị thấp nhất của Recall thuộcvềthểloạiReggae.ĐốivớihaimôhìnhGRUvàCSN,giátrịthấpnhấtcủaRecallvàf1- score thuộc về thể loại Reggae, còn giá trị thấp nhất của Precision lần lượt thuộcvềthểloạiRock(GRU)vàBlues(CSN).

Hình 3.4 Trung bình độ chính xác phân lớp của các mô hình LSTM, CNN, GRU vàCSNtrênbộdữ liệuS2n1

Hình3.4tómtắtlạitrungbìnhđộchínhxácphânlớpcủa4môhìnhLSTM,CNN,GRU và CSN trên bộ dữ liệu S2n1 Từ hình này cho thấy, mô hình GRU có trungbình độ chính xác phân lớp cao nhất đạt 95,81%, còn mô hình CSN có trung bình độchính xác thấp nhất đạt 84,78% Phần tiếp theo là kết quả thực nghiệm của bốn môhìnhLSTM,CNN,GRUvàCSNtrênbộdữ liệuS7.

Hình 3.5 Mô hình LSTM: Trung bình cực đại và cực tiểu của Precision, Recall vàf1-scorecủa10thểloạinhạctrongtậpdữliệuS7

Hình 3.5 cho biết giá trị trung bình cực đại và cực tiểu (màu đỏ) của Precision,Recall và f1-score của mô hình LSTM đối với 10 thể loại nhạc trong bộ dữ liệu S7.VớithểloạinhạcPop,giátrịtrungbìnhcủaRecallvàf1- scoređạtcựcđạilầnlượtlà100%và99,92%.Từđó,cóthểnhậnthấyrằngthểloạiPopsẽkhóbịphânlo ạinhầmsovớicácthểloạikhác.ĐốivớithểloạinhạcRock,Recallvàf1-scorecógiátrịtrungbình cực tiểu lần lượt là 98,28% và 98,99% Như vậy, cũng có thể nói thể loại Rockrấtdễbịphânloạinhầmhơnsovớicácthểloạikhác.

Hình 3.6 Mô hình CNN: Trung bình cực đại và cực tiểu của Precision, Recall vàf1-scorecủa10thểloạinhạctrongtậpdữliệuS7

Giá trị trung bình cực đại và cực tiểu (màu đỏ) của Precision, Recall và f1-scorecủa mô hình CNN sử dụng bộ dữ liệu S7 được cho trong Hình 3.6 Từ hình này cóthể thấy, các thể loại Blues, Country, Hip-hop và Jazz đạt được giá trị Precision,Recall và f1-score trung bình cực đại là 100% không bị phân loại nhầm Trong khiđó, thể loại nhạc Rock có giá trị Recall trung bình và f1-score cực tiểu là thấp nhấtnêndễbịphânloạinhầmhơnsovớicácthểloạikhác.

Hình 3.7 Mô hình GRU: Trung bình cực đại và cực tiểu của Precision, Recall vàf1-scorecủa10thểloạinhạctrongtậpdữliệuS7

Hình 3.7 cho biết giá trị trung bình cực đại và cực tiểu (màu đỏ) của Precision,Recall và f1-score trên bộ dữ liệu S7 khi sử dụng mô hình GRU Hình này cũng chothấy, thể loại Hip-hop có giá trị Precision, Recall và f1-score cao nhất là 100% sẽkhông bị phân loại sai Thể loại nhạc Rock vẫn có giá trị trung bình cực tiểu củaRecallvàf1-scorelà thấpnhấtnên vẫndễbịphânloạisai sovới cácthểloạikhác.

Hình 3.8Mô hình CSN: Trung bình cực đại và cực tiểu của Precision, Recall và f1- scorecủa10thểloạinhạctrongtậpdữ liệuS7

Hình 3.8 là kết quả phân lớp sử dụng mô hình CNN trên bộ dữ liệu S7 Các thểloại nhạc có Precision, Recall và f1-score trung bình cực đại là 100% sẽ không bịphân loại sai Thể loại Metal có giá trị trung bình cực tiểu đối với Recall và f1- scorelầnlượtlà99,12%và99,56% rấtdễbịphânloạisaisovớicácthểloạikhác.

Kếtchương3

Chương 3 đã trình bày các kết quả nghiên cứu phân lớp thể loại âm nhạc trên bộdữ liệu nhạc Việt tại thử thách Zalo AI 2018 và hai bộ dữ liệu âm nhạc theo thể loạinổi tiếng là GTZAN và FMA_SMALL sử dụng các mô hình CNN, LSTM, GRU,CSN,DenseNet169,DenseNet121vàDenseNet201.KếtquảphânlớptrênbộdữliệunhạcViệ tchokếtquả khảquanhơnsovớikếtquảcủađộiđạtgiảinhấttạithửtháchZaloAI2018.Trongchươngcũngđãphâ ntíchảnhhưởngcủamỗiphươngpháptăngcườngdữliệuđếnkếtquảnhậndạng.Cóthểnóirằng,việctă ngcườngdữliệuđãlàmtăng hiệu quả nhận dạng của mô hình, tuy nhiên sẽ phải trả giá bằng chi phí huấnluyệnmôhình.Cáckết quảnghiêncứuphânlớpthểloạiâmnhạctrênhaibộdữliệuGTZANvàFMA_SMALLđềuhếtsứck hảquanvàvượttrộihơncáckếtquảcủacácnghiên cứu khác trên thế giới đã được công bố trên cùng bộ dữ liệu Độ chính xácphânlớpthểloạiâmnhạcvượttrộitrongnghiêncứucủachúngtôiđốivớihaibộdữliệu này có thể được giải thích theo hai lý do sau đây Trước hết là sự lựa chọn môhình thích hợp, trong đó cả hai mô hình CSN và DenseNet đều rất mạnh trong xử lýảnh.Tiếptheolàviệctậndụngưuthếcủacácphươngpháptăngcườngdữliệu,trongđó phương pháp chia đôi file dữ liệu âm thanh là một phương pháp hầu như chưa cónghiêncứunàokhác sử dụngsonglạirấtđơngiảnvàhiệuquả.

CáckếtquảnghiêncứuchínhcủaChương3đãđượccôngbốtrongcácbàibáosố4,7và8trong Danhmục các công trìnhnghiên cứucủa luậnán:

4.Q uan gH N g u y e n , T r a n g T T D o, T ha nh B Ch u, L o a n V Tr in h, Du ng

H Nguyen,CuongV.Phan,TuanA.Phan,DungV.Doan,HungN.Pham,Binh

ResidualAttentionNetwork”,2019InternationalConferenceonSystemScience and Engineering (ICSSE 2019), Dong Hoi, Vietnam, pp 115-119,ISBN:978- 1-7281-0524-6.(SCOPUS).

7 DaoThiLeThuy,TrinhVanLoan,ChuBaThanh,NguyenHieuCuong(2023),“MusicGe nreClassificationUsingDenseNetandDataAugmentation”,Computer Systems

Science and Engineering, Vol.47, No.1, pp 657-674, 2023,DOI:10.32604/csse.2023.036858.

8 Chu Ba Thanh, Trinh Van Loan, Dao Thi Le Thuy (2023),“Music

GenreClassification Using Deep Neural Networks and Data Augmentation”,

Kếtluận

Luậnántrìnhbàyquátrìnhnghiêncứu,triểnkhaicácthuậttoánvàmôhìnhtronghọcmáyliênqu anđếndữliệuâmnhạcvàphânlớpcácthểloạiâmnhạc.Nghiêncứuliênquanđếnviệclấyâmnhạcđãđ ượcgánnhãntheothểloại,tríchrútcácđặctrưngliênquanđếnmiềnthờigian,miềntầnsốvàphổ.Sauđó ,cácđặctrưngtríchrútđượcđưalàmđầuvàochocácmôhìnhphânlớptruyềnthống,cácthuậttoánhọc máy,cácmôhìnhmạngnơ-ronsâuđểpháthiệnthểloạiâmnhạccầnnhậndạng.

BộdữliệudùngtrongnghiêncứulàmộtsốlànđiệudâncaViệtNamphổbiếnmàđiểnhìnhnhấtlà ChèovàQuanhọ.Ngoàira,cácmôhìnhmạngnơ- roncũngđượcthửnghiệmtrênbabộdữliệuâmnhạctheothểloại.BộdữliệuthứnhấtđếntừthửtháchZa loAI2018;BộdữliệuthứhaicótênGTZANvàbộdữliệucònlạilàFMA. Đối với các thuật toán học máy truyền thống: Nghiên cứu đầu tiên được tiến hànhtrên 10 làn điệu Quan họ, sử dụng SMO, MultiLayer Perceptron và MultiClassClassifiertrongbộcôngcụWEKA.KếtquảcaonhấtthuộcvềSMO(SVM)vớitỷlệnhậndạ ngđúngtrungbìnhđạt89,0%.Kếtquảnghiêncứuphânlớpvàđịnhdanhmộtsố làn điệu Chèo và Quan họ dùng mô hình GMM với số thành phần GaussM(thayđổi theo luỹ thừa của 2) trong 5 trường hợp Các bộ công cụ ALIZE, Pratt, Matlab đượcsửdụngđểtríchrútvàkếthợpcácđặctrưnggồm:CáchệsốMFCCvàcácđạohàm,tầnsốcơbản

- Trườnghợp1:Địnhdanh10lànđiệuQuanhọ,cácđặctrưngsửdụnggồmcáchệsốMFCC+năn glượng+F0,thửnghiệmnàychothấyvaitròcủathamsốF0làmtăngkếtquảnhậndạng.

- Trường hợp 2: Phân lớp và định danh được tiến hành trên bộ dữ liệu DANCA gồm1000file,cácđặctrưngsửdụnggồmcáchệsốMFCC+nănglượng.Trungbìnhkếtquảphân lớpChèovàQuanhọcaonhấtđạt93,8%vớiM=4096.Trungbìnhkếtquảđịnhdanhcaonhấtđạt85, 6%vớiM=4096.

Trường hợp 3 tiến hành nghiên cứu với các đặc trưng bổ sung MFCC + năng lượng bao gồm tần số cơ bản F0, cường độ âm và nhịp độ trên bộ dữ liệu DANCA Kết quả định danh cao nhất đạt lần lượt là 96,62% và 96,72% khi chưa và khi đã bổ sung các tham số này.

16s)đượctríchratừdữliệudùngchonhậndạng.Trung bình tỷ lệ nhận dạng đúng với độ dài trích đoạn là 16s đạt 94,44% so với sửdụngtoànbộnộidungfileâmthanhđểnhậndạng.Thửnghiệmtrêni- vectorcũngchokếtquảnhậndạngthấphơnsovớiGMM. Đốivớicácmôhìnhmạngnơ- ronsâuCNN,LSTMvàCRNN,nghiêncứuphânlớpvàđịnhdanhtrênbộdữliệuDANCAvới2b ộthamsố(157hệsốvà183hệsố).Trongnghiên cứu này đã sử dụng phương pháp chia đôi các file dữ liệu âm nhạc để tăngcườngdữliệuchobộdữliệuDANCAthành2000file.Kếtquảphânlớpvàđịnhdanh với hai bộ tham số cho thấy sự vượt trội của các mô hình mạng nơ-ron sâu so vớiGMM,cụthể:

- Trung bình kết quả phân lớp cao nhất thuộc về mô hình CRNN2 là 99,66% (157hệsố)và99,92%(183hệsố)thuộcvềmôhìnhCNN,trungbìnhtỷlệnhậndạngđúngthấp nhất cũng đạt 99,16% với mô hình CRNN1 Trong khi đó với GMM thì kết quảtrongtrườnghợpphânlớpcaonhấtchỉđạt93,8%.

- Kết quả thử nghiệm định danh các làn điệu Quan họ cao nhất thuộc về mô hìnhCNNvới99,50%trêncảhaibộthamsố.KếtquảtươngứngvớiGMMkhiđịnhdanhcaonhấtđ ạt96,76%đốivớiQuanhọ.

- Nghiên cứu phân lớp các thể loại nhạc Việt tại Zalo AI Challenge 2018 dùng RANvớicácđặctrưngphổ.Trongnghiêncứunàycósửdụngphươngpháptăngcườngdữliệuđểlà mchocácclasscósốảnhcânbằngnhau.Trungbìnhkếtquảthửnghiệmcaonhấtđạt71,7%,caohơnso vớikếtquảđạtgiảinhất(70,1%)tạithửtháchđó.

- NghiêncứutiếptheođượctiếnhànhtrênbộdữliệuFMA_SMALL.Trườnghợpnàycósửdụ ngcáckỹthuậttăngcườngdữliệulà:cộngnhiễutrắng,tạotiếngvọngvàthay đổi cao độ Nghiên cứu được tiến hành trên các mô hình mạng DenseNet,

CNNvàGRU,cácđặctrưngđượcsửdụnggồmcáchệsốphổMel.Kếtquảđãđạtđộchínhxácđịnhdan hthểloạiâmnhạc98,97%khisửdụngDenseNet121.Độchínhxácđịnhdanhnàyđãvượttrộiđộchín hxáccủatuyệtđạiđasốcácnghiêncứuhiệntạitrênthếgiớivớicùngbộdữliệuFMA_SMALL.

- Cuối cùng, nghiên cứu phân lớp thể loại âm nhạc được tiến hành trên bộ dữ liệuGTZAN với các đặc trưng phổ Mel, sử dụng CNN, LSTM, GRU và CSN (CapNet).Trong nghiên cứu này có sử dụng phương pháp tăng cường dữ liệu chia đôi mỗi fileâm thanh Trung bình độ chính xác định danh thể loại âm nhạc cao nhất đạt 99,91%đốivớiCSN.Độchínhxácđãđạtđượcnàyvượttrộihơnđộchínhxáccủatấtcảcácnghiêncứ uhiệncótrênthếgiớivớicùngbộdữliệuGTZAN.

 Xây dựng được bộ dữ liệu âm nhạc dân ca gồm các làn điệu dân ca phổ biến làChèovàQuanhọ.

 Đề xuất các mô hình học máy truyền thống và học sâu để định danh một số lànđiệuChèovàQuanhọphổbiến.

Địnhhướngpháttriển

Trongkhuônkhổcóhạncủaluậnán,nộidungnghiêncứutrướchếtmớitậptrungvào 25 làn điệu Chèo và 25 làn điệu Quan họ Như đã trình bày ở trên, số lượng lànđiệu Chèo và Quan họ khá là phong phú, nhưng chỉ có một số làn điệu là được phổbiến(cónhiềucasĩthểhiện)nêncầnnhiềuthờigian,côngsứcđểcóthểsưutầmđược bộ dữ liệu đủ lớn Từ các kết quả nghiên cứu, luận án đề xuất một số nội dung nhằmmởrộnghướngnghiêncứuhiệntại:

 Nâng cao số lượng dữ liệu các làn điệu dân ca Chèo và Quan ho để có bộ dữliệu hoàn chỉnh phục vụ cho nghiên cứu về định danh làn điệu dân ca ViệtNamthuộchailoạihìnhdâncanày.

DANHMỤC CÁCCÔNG TRÌNHĐÃ CÔNGBỐCỦA LUẬNÁN

1 Chu Bá Thành, Trịnh Văn Loan, Nguyễn Hồng Quang (2016),“Định danh tựđộngmộtsốlànđiệudâncaViệtNam”,KỷyếuHộithảoquốcgialầnthứXIX:Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông (@), trang92-97.

2 ChuBáThành,TrịnhVănLoan,NguyễnHồngQuang(2017),“MôhìnhGMMđịnhdanht ựđộngmộtsốlànđiệudâncaQuanhọBắcNinh”,KỷyếuHộinghịquốc gia lần thứ X về Nghiên cứu cơ bản và ứng dụng công nghệ thông tin(FAIR),ĐàNẵng,trang 417-422.

3 ChuBáThành,TrịnhVănLoan,NguyễnHồngQuang(2018),“Phânlớp,địnhdanh Chèo và Quan họ”, Kỷ yếu Hội nghị quốc gia lần thứ XI về Nghiên cứucơbảnvàứng dụngcôngnghệthôngtin (FAIR),HàNội,trang395-403.

4 Quang H Nguyen, Trang T T Do, Thanh B Chu, Loan V Trinh, Dung H.Nguyen,CuongV.Phan,TuanA.Phan,DungV.Doan,HungN.Pham,Binh P.NguyenandMatthewC.H.Chua(2019),“MusicGenreClassificationUsingResidualAtten tionNetwork”,2019InternationalConferenceonSystemScience and Engineering

(ICSSE 2019), Dong Hoi, Vietnam, pp 115-119,ISBN:978-1-7281-0524-6. (SCOPUS).

5 Thanh, C B., Van Loan, T., & Quang, N H (2020),“Some new results onautomatic identification of Vietnamese folk songs Cheo and Quanho”,

6 Thành,C.B.,VanLoan,T.,&LeThuy,D.T.(2022),“Automaticidentificationof some Vietnamese folk songs Cheo and Quanho using Convolutional NeuralNetworks”, Journal of Computer

Science and Cybernetics, vol 38, no 1, pp.63-83.

7 DaoThiLeThuy,TrinhVanLoan,ChuBaThanh,NguyenHieuCuong(2023),“MusicGenre

Science and Engineering, Vol.47, No.1, pp 657-674, 2023,DOI:10.32604/csse.2023.036858.

8 Chu Ba Thanh, Trinh Van Loan, Dao Thi Le Thuy (2023),“Music

GenreClassification Using Deep Neural Networks and Data Augmentation”,

(2003),“Representingmusicalgenre:Astateoftheart”,Journalofnewmusicrese arch,vol.32,no.1,pp83-93.

[3] Trịnh Hoài Thu (2012),“Giáo trình môn Lý thuyết âm nhạc cơ bản”,

[4] “https://juliajooya.com/2020/10/11/what-are-the-8-elements-of-music/”,

[6] Panagiotakis, C., & Tziritas, G (2005),“A speech/music discriminator basedon RMS and zero-crossings”, IEEE Transactions on multimedia, 7(1), 155-166.

[7] “https://en.wikipedia.org/wiki/Energy_(signal_processing%29”,[Online].

[8] J D Deng, C Simmermacher, and S Cranefield (2008),“A study on featureanalysisformusicalinstrumentclassification”,IEEETrans.Syst.,Man,Cy bern.,PartB(Cybern.),vol.38,no.2,pp.4291438.

Proceedingsofthe1stInternationalConferenceonMusicInformationRetrieval(Pl ymouth(Massachusetts),USA,vol.270,no.1,pp,1.

[10] Murthy, H.a., F Beaufays, L.p Heck, and M Weintraub

(1999),“RobustText-Independent Speaker Identification over Telephone

[11] Essid,S.,G.Richard,andB.David(2006),“InstrumentRecognitioninPolyphonic

Music Based on Automatic Taxonomies”, IEEE Transactions onAudio,SpeechandLanguageProcessing.Vol 14,Issue1,pp.68-80.

[12] Hansen,JohnH.L.,andSanjayPatil(2007),“SpeechUnderStress:Analysis,Modeling and Recognition”, Lecture Notes in Computer Science Vol 4343,pp.108-137.

[13] Tsang,ChristineD.,andLaurelJ.Trainor(2002),“SpectralSlopeDiscrimination in

Infancy: Sensitivity to Socially Important Timbres”,

[14] Li,Tao,andM.Ogihara(2005),“MusicGenreClassificationwithTaxonomy”,IE

EEInternationalConferenceonAcoustics,Speech,andSignalProcessing,Vol.5,pp.v- 197.

[15] Ren, Jia-Min, Ming-Ju Wu, and Jyh-Shing Roger Jang

(2015),“AutomaticMusicMoodClassificationBasedonTimbreandModulationFeat ures”,IEEETransactionsonAffectiveComputing.Vol.6,Issue3,pp.236-246.

[16] S Zhang, Y Guo, and Q Zhang (2009),“Robust Voice Activity

DetectionFeatureDesignBasedonSpectralKurtosis”,FirstInternationalWorkshopo nEducation TechnologyandComputerScience,pp.269-272.

[17] Lehner, Bernhard, et al (2014),“On the Reduction of False Positives inSingingVoiceDetection”,2014IEEEInternationalConferenceonAcoustics,Spee chandSignalProcessing(ICASSP),pp.7480-7484.

[18] E.Mezghani,M.Charfeddine,C.B.Amar,andH.Nicolas(2016),“Multifeature speech/music discrimination based on mid-term level statisticsandsupervisedclassifiers”,in2016IEEE/ACS13thInternationalConferenceof

[19] Jiang, Dan-Ning, Lie Lu, Hong-Jiang Zhang, Jian-Hua Tao, and Lian-

HongCai(2002),“Musictypeclassificationbyspectralcontrastfeature”,InMulti mediaandExpo,2002.ICME‘02.Proceedings.2002IEEEInternationalConferenceon,IE EE,vol.1,pp.113-116.

Speech/Music Discriminator”, IEEE International Conference onAcoustics, Speech, andSignalProcessing.Volume2,pp 1221-1224.

[21] Chang-Hsing Lee, Jau-Ling Shih, Kun-Ming Yu, and Hwai-San Lin

[22] Đặng Thị Lan (2020),“Dạy học hát Chèo và Quan họ cho sinh viên Đại họcSư phạm âm nhạc”, Luận án Tiến sĩ - Trường Đại học Sư phạm Nghệ thuậtTrungương.

[23] Hoàng Kiều (2001),“Tìm hiểu các làn điệu Chèo cổ”, NXB sân khấu -

[25] HoàngKiều,HàHoa(2007),“Nhữnglàn điệuChèocổchọnlọc”,NXBThôngtin

[26] NguyễnThịTuyết(2000),“Giáo trìnhhátChèo”,NXBHọcviệnSânkhấuĐiệ nảnh Hà Nội.

[27] NguyễnThịTuyết(2007),“Tìnhdậumà tìnhơi”,NXBHọcviệnSânkhấuĐiệ nảnh Hà Nội.

[28] “https://vi.wikipedia.org/wiki/Chèo”,[Online].

[29] Lê Danh Khiêm, Hoắc Công Huynh, Lê Thị Chung (2006),“Không gian vănhoáQuanhọ”,NXBTrungtâmVHTTtỉnhBắcNinh.

[30] iTermens,E.G.(2009),“Audiocontentprocessingforautomaticmusicgenreclassification: descriptors, databases, and classifiers”, Doctoral dissertation,PhDthesis,UniversitatPompeuFabra,Barcelona,Spain.

[31] “https://www.ismir.net/resources/datasets/”,[Online].

IEEE Transactions on Speech and Audio Processing, Vol 10, No 3,pp.293- 302.

[33] Cano P, Gómez E, Gouyon F, Herrera P, Koppenberger M, Ong B, Serra

(2006),“ISMIR2004audiodescriptioncontest”,Barcelona: Universitat Pompeu Fabra, Music technology Group; 20 p ReportNo.:MTG-TR-2006- 02.

[34] Silla Jr CN, Koerich AL, Kaestner CA (2008),“The latin music database”,In:ISMIR,pp.451-456.

[35] Gouyon F, Dixon S, Pampalk E, Widmer G (2004),“Evaluating rhythmicdescriptorsf o r m u s i c a l g e n r e c l a s s i f i c a t i o n ”,I n : P r o c o f t h e A E S 2 5 t h InternationalConference, pp196-204.

[36] DefferrardM,BenziK,VandergheynstP,BressonX(2017),“FMA:Adatasetfor music analysis”, In: Proc of the 18th International Society for

MusicInformationRetrievalConference,ISMIR 2017,Suzhou,China,pp 316- 323.

[37] “https://phamdinhkhanh.github.io/deepai-book/ch_ml/SVM.html”,[Online].

[39] Dempster, A P., Laird, N M., & Rubin, D B (1977),“Maximum likelihoodfrom incomplete data via the EM algorithm”, Journal of the royal statisticalsociety:seriesB(methodological),vol.39,no.1,pp.1-38.

[40] “https://www.xenonstack.com/blog/artificial-neural-network-applications”,

[41] “https://aicurious.io/blog/2019-09-23-cac-ham-kich-hoat-activation-function- trong-neural-networks”,[Online].

[42] Fukushima, Kunihiko (1980),“A self-organizing neural network model for amechanismofpatternrecognitionunaffectedbyshiftinposition”,Biol.Cybern,vol.

[43] LeCun, Yann, et al (1998),“Gradient-based learning applied to documentrecognition”,ProceedingsoftheIEEE,vol.86,no.11,pp.2278-2324.

[44] Ciregan,D.,Meier,U.,&Schmidhuber,J.(2012),“Multi-columndeepneuralnetworks for image classification”, In 2012 IEEE conference on computervisionandpatternrecognition,IEEE,pp.3642-3649.

[45] Cireşan, D., & Meier, U (2015),“Multi-column deep neural networks foroffline handwritten Chinese character classification”, In 2015 internationaljointconferenceonneuralnetworks(IJCNN),IEEE,pp.1-6.

”,In2018internationalconference on computer communication and informatics (ICCCI), IEEE, pp.1-4.

[47] Matocha, Mateusz, and S K Zieli´nski (2018),“Music genre recognitionusingconvolutionalneuralnetworks”,AdvancesinComputerScienc eResearch,vol 14,pp 125-142.

[48] Keunwoo Choi, George Fazekas, Mark Sandler, and Jeonghee Kim

(2015),“Auralisation of deep convolutional neural networks: Listening to learnedfeatures”,Proceedingsofthe16thInternationalSocietyforMusicInformationRetrie valConference,ISMIR,2015,pp.26-30.

[49] Paulo Chiliguano and Gyorgy Fazekas (2016),“Hybrid music recommenderusingcontent- basedandsocialinformation”,2016IEEEInternationalConferenceonAcoustics,

[50] Pelchat, Nikki, and Craig M Gelowitz (2020),“Neural network music genreclassification”, Canadian Journal of Electrical and Computer

[51] Allamy, S., & Koerich, A L (2021, December),“1D CNN architectures formusicgenreclassification”,In2021IEEESymposiumSeriesonComputationa lIntelligence(SSCI)(pp.01-07).IEEE.

[52] “https://towardsdatascience.com/convolutional-neural-networks-explained-

[53] Sherstinsky, Alex (2020),“Fundamentals of recurrent neural network

(RNN)andlongshorttermmemory(LSTM)network”,PhysicaD:NonlinearPheno mena,vol.404,pp.132306.

[54] Hochreiter,Sepp,andJ¨urgenSchmidhuber(1997),“Longshort-termmemory”,

[55] V L Trinh, T L T Dao, X T Le and C Eric (2022),“Emotional

SpeechRecognitionUsing DeepNeural Networks”,Sensors,vol.22,no.4,pp.1-

[56] Fei Wang, Mengqing Jiang, Chen Qian, Shuo Yang, Cheng Li,

HonggangZhang,XiaogangWang,andXiaoouTang(2017),“Residualattention network for image classification”, In Proceedings of the IEEE Conference onComputer VisionandPatternRecognition,pages3156-3164.

[57] “https://www.it4nextgen.com/keras-image-classification-models”,[Online].

[58] HuangGao,ZhuangLiu,LaurensVanDerMaaten,andKilianQ.Weinberger(2017),“D enselyconnectedconvolutionalnetworks”,inPro.IEEEconferenceon computer visionand pattern recognition,pp.4700-4708.

[59] G.E.Hinton,S.Krizhevsky&S.D.Wang(2011),“Transformingautoencoders”,i nInternationalConferenceonArtificialNeuralNetworks,pp.44–51.Springer.

[60] Sara Sabour, Nicholas Frosst, Geoffrey E Hinton (2017),“Dynamic

RoutingBetween Capsules”, Neural Information Processing Systems, vol 30, pp.3856-3866.

[61] Sabour, Sara, Nicholas Frosst, and Geoffrey Hinton (2018),“Matrix capsuleswith EM routing”, 6th international conference on learning representations,ICLR.Vol.115.

[62] L.TrinhVan,Q.H.Nguyen,andT.DaoThiLe(2022),“EmotionRecognitionwith Capsule

Neural Network”,Computer Systems Science and Engineering,vol.41,no.3,pp.1083-

[63] MangeshMPanchwaghandVijayDKatkar(2016),“Musicgenreclassificationus ingdataminingalgorithm”,In2016ConferenceonAdvancesinSignalProcessing(CAS

[64] Nasrullah,Zain,andYueZhao(2019),“Musicartistclassificationwithconvolutionalr ecurrentneuralnetworks”,2019InternationalJointConferenceonNeuralNetwor ks(IJCNN).IEEE,pp.1-8.

[65] Rao, K R., Sharvani, K., Vaishnawi, Ch S., & Marina, M.

LSTMNeural Networks”, International Journal for Research in Applied Science andEngineering Technology,vol.10,no.8,pp.1644-1648.

[66] Xiao Hu, Kahyun Choi, and J Stephen Downie (2017),“A framework forevaluatingmultimodalmusicmoodclassification”,JournaloftheAssociationforIn formation ScienceandTechnology,vol.68,no.2,pp.273-285.

[67] DG Bhalke, CB Rama Rao, and Dattatraya S Bormane

(2016),“Automaticmusical instrument classification using fractional fourier transform based- mfccfeaturesandcounterpropagationneuralnetwork”,JournalofIntelligentInformation

[68] Li,Tao,andMitsunoriOgihara(2004),“Content- basedmusicsimilaritysearchandemotiondetection”,2004IEEEInternationalConf erenceonAcoustics, Speech, andSignalProcessing.Vol.5.IEEE,pp.705-708.

[69] Lee, Jongpil, et al (2020),“Disentangled multidimensional metric learningfor music similarity”,ICASSP 2020-2020 IEEE International

Conference onAcoustics, Speechand SignalProcessing (ICASSP).IEEE,pp.6- 10.

[70] B.MatityahoandM.Furst(1995),“Neuralnetworkbasedmodelforclassification of music type”, In Proceedings of the Convention of ElectricalandElectronics

[71] “https://ismir.net/conferences/”,[Online].

[72] Sturm BL (2012),“A survey of evaluation in music genre recognition”,

In:International Workshop on Adaptive Multimedia Retrieval, Springer, pp. 29-66.

[73] KneesP,SchedlM(2013),“Asurveyofmusicsimilarityandrecommendationfrommusicco ntextdata”,ACMTransonMultimediaComputing,Communications,andApplic ations(TOMM)vol.10,no.1,pp.1-21.

[74] Corrêa DC, Rodrigues FA (2016),“A survey on symbolic data-based musicgenreclassification”,ExpertSystemswithApplications60:190-210.

[75] “https://scholar.google.co.kr”,[Online].

[76] M H Pimenta-Zanon, G M Bressan, and F M Lopes

[77] Dokania,Shubham,andVasudevSingh(2019),“GraphRepresentationlearningf orAudio&MusicgenreClassification”,arXivpreprintarXiv:1910.11117.

[78] S A Patil and T R Komati (2022),“Designing of a Novel Neural

NetworkModelforClassificationofMusicGenre”,Ingénieriedessystèmesdinfor mation,vol.27,no.2,pp.327-333, doi: 10.18280/isi.270217.

[79] A.ElbirandN.Aydin(2020),“Musicgenreclassificationandmusicrecommendat ionbyusingdeeplearning”,ElectronicsLetters,vol.56,no.12,pp.627-629.

[80] C.ElAchkar,R.Couturier,T.Atéchian,andA.Makhoul(2021),“CombiningReductionan dDenseBlocksforMusicGenreClassification”,NeuralInformationProcessing,p p.752–760,doi:10.1007/978-3-030-92310-5_87.

[81] Ghosal,SoumyaSuvra,andIndranilSarkar(2020),"NovelApproachtoMusicGenreClassifi cationusingClusteringAugmentedLearningMethod(CALM)",AAAI Spring Symposium: Combining Machine Learning with KnowledgeEngineering (1).

[82] L Yang and H Zhao (2021),“Sound Classification Based on

MultiheadAttentionandSupportVectorMachine”,MathematicalProblemsinEn gineering,vol.2021,pp.1-11,doi:10.1155/2021/9937383.

[83] H C Ceylan, N Hardalaỗ, A C Kara, and F Hardalaỗ

(2021),“AutomaticMusic Genre Classification and Its Relation with Music

Education”, WorldJournalof Education,vol.11,no.

[84] R Rajan and B S S Mohan (2021),“Distance Metric Learnt Kernel-

BasedMusic Classification Using Timbral Descriptors”, International

[85] Lau,D.S.,&Ajoodha,R.(2022),“Musicgenreclassification:Acomparativestudy between deep learning and traditional machine learning approaches”,InProceedingsofSixthInternationalCongressonInformationandCom munication Technology: ICICT 2021, London, Volume 4 (pp 239- 247).SpringerSingapore.

[86] Y Hu and G Mogos (2022),“Music genres classification by deep learning”,Indonesian Journal of Electrical Engineering and Computer Science, vol.

[87] W Wang and M Sohail (2022),“Research on Music Style

ClassificationBased on Deep Learning”, Computational and Mathematical

Methods inMedicine,vol.2022,pp.1-8,doi:10.1155/2022/3699885.

Classification with Pre-Processed Feature Analysis”, Jurnal Ilmiah

TeknikElektroKomputerdanInformatika(JITEKI),vol.7,no.3,p.491,doi:10.26555 /jiteki.v7i3.22327.

[89] M Chaudhury, A Karami and M A Ghazanfar (2022),“Large-Scale

MusicGenre Analysis andClassification Using Machine Learning with ApacheSpark”,Electronics,vol.11,no.16,p 2567.

[90] Wang, Kun-Ching (2020),“Robust audio content classification using hybrid- basedSMDandentropy-basedVAD”,Entropy,Vol.22,Issue2,no.183,pp.1-2.

[91] Ghosh, P., Mahapatra, S., Jana, S., & Jha, R K (2023),“A Study on

MusicGenreClassificationusingMachineLearning”,InternationalJournalofEn gineering BusinessandSocial Science,1(04),308-320.

[92] S Chillara, A S Kavitha, S A Neginhal, S Haldia and K S.

Vidyullatha(2019),“Music genre classification using machine learning algorithms: acomparison”, International Research Journal of Engineering and Technology(IRJET),vol.6,no.5,pp.851-858.

[93] W Bian, J Wang, B Zhuang, J Yang, S Wang, and J Xiao (2019),“Audio-

Based Music Classification with DenseNet and Data Augmentation”,

[94] D Kostrzewa, W Mazur and R Brzeski (2022),“Wide Ensembles of

NeuralNetworksinMusicGenreClassification”,InternationalConferenceonCo mputationalScience,Springer,Cham,pp.64-71.

[96] C Ke and L Beici (2020),“Do User Preference Data Benefit Music

GenreClassification Tasks?”, in Proc the 21st Int Society for Music

[97] V.ChoudharyandA.Vyas(2018),“CS543:MusicGenreRecognitionthroughAu dioSamples”,small8.8:30, pp.1-6.

MusicGenreClassification”,2022InternationalJointConferenceonNeuralNet works(IJCNN),pp.1-8,doi:10.1109/IJCNN55064.2022.9892651.

WooandN.Juhan(2018),“Representation Learning of Music Using Artist

Labels”, in Pro the 19thISMIRConference,Paris,France,September23-

[100] D.Kostrzewa,P.KaminskiandR.Brzeski(2021),“MusicGenreClassification:L ookingforthePerfectNetwork”,InternationalConferenceonComputationalScience,Springe r,Cham,pp.55-67.

PacificSignalandInformationProcessingAssociationAnnualSummitandConferen ce(APSIPAASC),IEEE,pp.1250-1255.

[102] D.Kostrzewa,M.CiszynskiandR.Brzeski(2022),“Evolvablehybridensemblesf ormusicalgenreclassification”,inPro.GeneticandEvolutionaryComputationConferenc eCompanion,pp.252-255.

[103] Chai, Wei, and Barry Vercoe (2001),“Folk music classification using hiddenMarkovmodels”,ProceedingsofInternationalConferenceonArtificialIntell igence.Vol.6,No.6,pp.1-6.

[104] Bassiou, Nikoletta, Constantine Kotropoulos, and Anastasios Papazoglou-

Chalikias(2015),“Greekfolkmusicclassificationintotwogenresusinglyricsand audio via canonical correlation analysis”, Image and Signal Processingand Analysis (ISPA), 2015

9th International Symposium on IEEE, pp 238-243.

[105] Rajesh, Betsy, and D G Bhalke (2016),“Automatic genre classification ofIndianTamilandwesternmusicusingfractionalMFCC”,InternationalJournal ofSpeechTechnologyvol.19,no.3,pp.551-563.

[106] Phan Anh Cang, Phan Thượng Cang (2016),“Phân loại nhạc theo thể loạidùngphépbiếnđổiWaveletrờirạc”,KỷyếuHộinghịKhoahọcQuốcgialầnthứ IX

“Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR'9)”, pp.521-531.

[107] PhanAnhCang,NguyễnThịKimKhánh,andPhanThượngCang,“PhânloạinhạcViệtNa mtheothểloạidựatrênâmsắcvànhịpđiệu”,TạpchíKhoahọcTrườngĐạihọcCầnThơ(2

[108] “https://challenge.zalo.ai/”,[Online].

[109] “https://librosa.github.io/librosa”,[Online].

[110] “https://www1.icsi.berkeley.edu/Speech/faq/speechSNR.html”,[Online].

[111] Hall,M.,Frank,E.,Holmes,G.,Pfahringer,B.,Reutemann,P.,&Witten,I.

H (2009),“The WEKAdata mining software:an update”,

[112] Witten, Ian H., and Eibe Frank (2005), “Data Mining: Practical machinelearningtoolsandtechniques”,MorganKaufmann.

[113] Schuller, B., Steidl, S., Batliner, A (2009),“The InterSpeech 2009

EmotionChallenge”,In:Proc.INTERSPEECH2009,pp.312-315.Brighton,UK.

[114] Bonastre, J F., Wils, F., & Meignier, S (2005),“ALIZE, a free toolkit forspeakerrecognition”,InProceedings.

(ICASSP'05).IEEEInternationalConference on Acoustics, Speech, and Signal Processing, Vol 1, pp I-737.IEEE.

[115] Larcher,A.,Bonastre, J.-F.,Fauve,B.,Lee,K.A.,Lévy,C.,Li,H., Mason,J.S.D.,&Parfait,J.-Y.(2013),“ALIZE3.0-opensourcetoolkitforstate-of- the- artspeakerrecognition”,InAnnualConferenceoftheInternationalSpeechCom municationAssociation,pp.2768-2772.

[116] “http://www.irisa.fr/metiss/guig/spro/spro-4.0.1/spro_1.html#SEC1”,

[117] “https://www.fon.hum.uva.nl/praat/download_win.html”,[Online].

[118] “https://www.tutorialspoint.com/matlab/index.html”,[Online].

[119] N Dehak, P J Kenny, R Dehak, P Dumouchel, and P Ouellet

(2011),“Front- endfactoranalysisforspeakerverification”,inIEEETransactionsonAudio,Speech,and

[120] D Snyder, D Garcia-Romero, G Sell, D Povey and S Khudanpur

(2018),“X-vectors: Robust dnn embeddings for speaker recognition”, 2018 IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICA SSP),Calgary,AB,pp.5329-5333.

[121] P Kenny, G Boulianne, P Ouellet, and P Dumouchel (2007),“Joint factoranalysis versus eigenchannels in speaker recognition”, IEEE

Transaction onAudioSpeechandLanguageProcessing,vol 15,no.4,pp.1435- 1447.

[122] P.Kenny,P.Ouellet,N.Dehak,V.Gupta,andP.Dumouchel(2008),“Astudyof interspeakervariability inspeakerverification”,IEEETransactiononAudio,SpeechandLanguage,vol.

[123] N Dehak (2009), “Discriminative and Generative Approches for Long- andShort-

TermSpeakerCharacteristicsModeling:ApplicationtoSpeakerVerification”,Ph D.th`esis,E´coledeTechnologieS u p ´ e r i e u r e , Montr´eal.

[124] Bousquet,Pierre-Michel,etal.(2012),“Variance- spectrabasednormalizationfori- vectorstandardandprobabilisticlineardiscriminantanalysis”, Odyssey 2012-The

Speaker and Language Recognition Workshop,pp.157-164.

[125] P.Matejka,O.Glembek,F.Castaldo,andM.J.Alam(2011),“Full-covariance ubm and heavy-tailed PLDA in i-vector speaker verification”, inInternationalConference onAcoustics,pp.4828-4831.

[126] FilipD.Jevtić,RadeT.Živaljević(2020),“GeneralizedTonnetzanddiscreteAbel-

Jacobi map”, Topological Methods in Nonlinear Analysis, vol 57, no.2,pp.547-

[127] Cho, Taemin, and Juan P Bello (2013),“On the relative importance ofindividualcomponentsofchordrecognitionsystems”,IEEE/ACMTransaction s on Audio, Speech, and Language Processing, vol 22, no 2, pp.477-492,2013.

[128] Jiang, N., Grosche, P., Konz, V., & Müller, M (2011),“Analyzing chromafeaturetypesforautomatedchordrecognition”,InAudioEngineeringSocietyConf erence:42 nd InternationalConference:SemanticAudio.AudioEngineering

Ngày đăng: 07/11/2023, 08:44

HÌNH ẢNH LIÊN QUAN

Hình  1.7   minh   hoạ   trọng   tâm   phổ   của  một  làn  điệu   Chèo  (màu  đỏ)  và  Quan họ(màuxanh).Trọngtâmphổđượctínhnhư trong(1.10): - Định danh tự động một số làn điệu dân ca việt nam
nh 1.7 minh hoạ trọng tâm phổ của một làn điệu Chèo (màu đỏ) và Quan họ(màuxanh).Trọngtâmphổđượctínhnhư trong(1.10): (Trang 23)
Bảng 1.3 là công thứcvàđồthịcủa mộtsốhàmkíchhoạtthườngđược sử dụng. - Định danh tự động một số làn điệu dân ca việt nam
Bảng 1.3 là công thứcvàđồthịcủa mộtsốhàmkíchhoạtthườngđược sử dụng (Trang 39)
Bảng 1.5 là tóm tắt một số kết quả nghiên cứu nổi bật đã được công bố về phânlớp thể   loại   âm   nhạc   trên   bộ   dữ   liệu   GTZAN   (sắp   xếp   theo   độ   chính   xác   nhận dạnggiảmdần). - Định danh tự động một số làn điệu dân ca việt nam
Bảng 1.5 là tóm tắt một số kết quả nghiên cứu nổi bật đã được công bố về phânlớp thể loại âm nhạc trên bộ dữ liệu GTZAN (sắp xếp theo độ chính xác nhận dạnggiảmdần) (Trang 50)
Bảng   2.6   cho   thấy   kết   quả   định   danh   một   số   làn   điệu   dân   ca   quan   họ   Bắc Ninh.Trung bình tỷ lệ định danh đúng cao nhất đạt 89,0% với bộ phân lớp SMO và thấpnhấtlà71,0%vớibộphânlớpMultiClass. - Định danh tự động một số làn điệu dân ca việt nam
ng 2.6 cho thấy kết quả định danh một số làn điệu dân ca quan họ Bắc Ninh.Trung bình tỷ lệ định danh đúng cao nhất đạt 89,0% với bộ phân lớp SMO và thấpnhấtlà71,0%vớibộphânlớpMultiClass (Trang 63)
Bảng   2.7   là   ma   trận   nhầm   lẫn   đối   với?=16cho   hai   bộ   tham   số.   Trong trườnghợpsửdụngbộthamsốthứnhất,tỷlệđịnhdanhđúngtrungbìnhđạt65,0%.Hailànđiệu“b” - Định danh tự động một số làn điệu dân ca việt nam
ng 2.7 là ma trận nhầm lẫn đối với?=16cho hai bộ tham số. Trong trườnghợpsửdụngbộthamsốthứnhất,tỷlệđịnhdanhđúngtrungbìnhđạt65,0%.Hailànđiệu“b” (Trang 64)
Bảng 2.8 là ma trận nhầm lẫn với giá trị lớn nhất củaM= 8192 cho hai bộ thamsố. - Định danh tự động một số làn điệu dân ca việt nam
Bảng 2.8 là ma trận nhầm lẫn với giá trị lớn nhất củaM= 8192 cho hai bộ thamsố (Trang 65)
Bảng 2.10 là ma trận nhầm lẫn khi định danh làn điệu Quan họ với giá trịM= - Định danh tự động một số làn điệu dân ca việt nam
Bảng 2.10 là ma trận nhầm lẫn khi định danh làn điệu Quan họ với giá trịM= (Trang 68)
Bảng 2.12 là ma trận nhầm lẫn khi định danh làn điệu Quan họ với số thành phầnGaussM=4096.Cónhiềulànđiệuđạttỷlệđịnhdanhđúng100%nhưQH_CVGCTQ,Q H _ D B B M C G , Q H _ D C S C , Q H _ N M K N , Q H _ T E T C L v à - Định danh tự động một số làn điệu dân ca việt nam
Bảng 2.12 là ma trận nhầm lẫn khi định danh làn điệu Quan họ với số thành phầnGaussM=4096.Cónhiềulànđiệuđạttỷlệđịnhdanhđúng100%nhưQH_CVGCTQ,Q H _ D B B M C G , Q H _ D C S C , Q H _ N M K N , Q H _ T E T C L v à (Trang 69)
Hình 2.8 là sơ đồ phân lớp Chèo và Quan họ trên toàn bộ tập dữ liệu dùng 4 bộtham số S1, S2, S3 và S4 với dữ liệu dùng cho huấn luyện và nhận dạng được phânchiatheotỷlệ8:2. - Định danh tự động một số làn điệu dân ca việt nam
Hình 2.8 là sơ đồ phân lớp Chèo và Quan họ trên toàn bộ tập dữ liệu dùng 4 bộtham số S1, S2, S3 và S4 với dữ liệu dùng cho huấn luyện và nhận dạng được phânchiatheotỷlệ8:2 (Trang 70)
Bảng 2.15 là các tham số của mô hình CNN dùng để huấn luyện và nhận dạngtrong nghiên   cứu   phân   lớp - Định danh tự động một số làn điệu dân ca việt nam
Bảng 2.15 là các tham số của mô hình CNN dùng để huấn luyện và nhận dạngtrong nghiên cứu phân lớp (Trang 79)
Hình 2.18 là thông tin chi tiết về cấu hình của CNN được vẽ bằng Netron [130] - -một chương trình dùng để xem cấu trúc mô hình học máy bằng cách hiển thị biểu đồquanhệgiữacáclớp,khối,và cáckếtnốicủamôhình. - Định danh tự động một số làn điệu dân ca việt nam
Hình 2.18 là thông tin chi tiết về cấu hình của CNN được vẽ bằng Netron [130] - -một chương trình dùng để xem cấu trúc mô hình học máy bằng cách hiển thị biểu đồquanhệgiữacáclớp,khối,và cáckếtnốicủamôhình (Trang 80)
Bảng 3.2 và 3.3 cho thấy độ chính xác trên tập dữ liệu xác thực với fold 5 manglại kết   quả   tốt   nhất   là   56,24%   và   74,6% - Định danh tự động một số làn điệu dân ca việt nam
Bảng 3.2 và 3.3 cho thấy độ chính xác trên tập dữ liệu xác thực với fold 5 manglại kết quả tốt nhất là 56,24% và 74,6% (Trang 93)
Bảng 3.10 (đậm- giá trị lớn nhất;mầu đỏ- giá trị nhỏ nhất) là kết quả phân lớpvới các giá trị Accuracy, AUC, Precision, Recall và f1-score tương ứng với các môhình lần lượt là LSTM, CNN, GRU và CSN trên bộ dữ liệu S2n1 - Định danh tự động một số làn điệu dân ca việt nam
Bảng 3.10 (đậm- giá trị lớn nhất;mầu đỏ- giá trị nhỏ nhất) là kết quả phân lớpvới các giá trị Accuracy, AUC, Precision, Recall và f1-score tương ứng với các môhình lần lượt là LSTM, CNN, GRU và CSN trên bộ dữ liệu S2n1 (Trang 97)
Bảng   3.10   cho   thấy,   đối   với   3   mô   hình   LSTM,   CNN   và   GRU,   thể   loại ClassicalđềucóPrecisionvàf1-scorelàcaonhất,cònđốivớimôhìnhCSNthì   cácgiátrịnàylại thuộc về thể loại Jazz - Định danh tự động một số làn điệu dân ca việt nam
ng 3.10 cho thấy, đối với 3 mô hình LSTM, CNN và GRU, thể loại ClassicalđềucóPrecisionvàf1-scorelàcaonhất,cònđốivớimôhìnhCSNthì cácgiátrịnàylại thuộc về thể loại Jazz (Trang 98)
Hình   3.7   cho   biết   giá   trị   trung   bình   cực   đại   và   cực   tiểu   (màu   đỏ)   của Precision,Recall và f1-score trên bộ dữ liệu S7 khi sử dụng mô hình GRU - Định danh tự động một số làn điệu dân ca việt nam
nh 3.7 cho biết giá trị trung bình cực đại và cực tiểu (màu đỏ) của Precision,Recall và f1-score trên bộ dữ liệu S7 khi sử dụng mô hình GRU (Trang 99)
Hình 3.8Mô hình CSN: Trung bình cực đại và cực tiểu của Precision, Recall và f1- f1-scorecủa10thểloạinhạctrongtậpdữ liệuS7 - Định danh tự động một số làn điệu dân ca việt nam
Hình 3.8 Mô hình CSN: Trung bình cực đại và cực tiểu của Precision, Recall và f1- f1-scorecủa10thểloạinhạctrongtậpdữ liệuS7 (Trang 99)
Bảng 3.11 thể hiện trung bình độ chính xác (%) phân lớp và AUC của 4 mô hìnhLSTM, CNN, GRU và CSN khi thực hiện phân lớp trên bộ dữ liệu S7 - Định danh tự động một số làn điệu dân ca việt nam
Bảng 3.11 thể hiện trung bình độ chính xác (%) phân lớp và AUC của 4 mô hìnhLSTM, CNN, GRU và CSN khi thực hiện phân lớp trên bộ dữ liệu S7 (Trang 100)
Hình 3.8 là kết quả phân lớp sử dụng mô hình CNN trên bộ dữ liệu S7. Các thểloại nhạc có Precision, Recall và f1-score trung bình cực đại là 100% sẽ không bịphân loại   sai - Định danh tự động một số làn điệu dân ca việt nam
Hình 3.8 là kết quả phân lớp sử dụng mô hình CNN trên bộ dữ liệu S7. Các thểloại nhạc có Precision, Recall và f1-score trung bình cực đại là 100% sẽ không bịphân loại sai (Trang 100)
Hình 3.9 là so sánh kết quả phân lớp đúng giữa các mô hình LSTM, CNN, GRUvà CSN trên các tập dữ liệu S7, S8 và S9 - Định danh tự động một số làn điệu dân ca việt nam
Hình 3.9 là so sánh kết quả phân lớp đúng giữa các mô hình LSTM, CNN, GRUvà CSN trên các tập dữ liệu S7, S8 và S9 (Trang 101)
Hình 3.10 là tổng hợp độ chính xác của MGC trong nghiên cứu dùng mô hìnhGRU trên tập dữ liệu gốc (S0) và các tập dữ liệu được tăng cường (S1, S2n1, S2n2,S2n3, S2n4,   S2d   và   S2u) - Định danh tự động một số làn điệu dân ca việt nam
Hình 3.10 là tổng hợp độ chính xác của MGC trong nghiên cứu dùng mô hìnhGRU trên tập dữ liệu gốc (S0) và các tập dữ liệu được tăng cường (S1, S2n1, S2n2,S2n3, S2n4, S2d và S2u) (Trang 102)
Bảng 3.20 đưa ra thời gian trung bình để huấn luyện một epoch và thời gian - Định danh tự động một số làn điệu dân ca việt nam
Bảng 3.20 đưa ra thời gian trung bình để huấn luyện một epoch và thời gian (Trang 107)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w