1. Trang chủ
  2. » Luận Văn - Báo Cáo

Định danh tự động một số làn điệu dân ca Việt Nam

24 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.Định danh tự động một số làn điệu dân ca Việt Nam.

MỞ ĐẦU Lý chọn đề tài Âm nhạc ăn tinh thần khơng thể thiếu đời sống người Con người thường nghe nhạc để giải toả cảm xúc, tạo cảm giác thoải mái, thư giãn tìm lại cân sống hàng ngày Trước đây, tác phẩm âm nhạc thường phân phối đến người dùng dạng đĩa CD/DVD, băng từ… thông qua cửa hàng băng đĩa nhạc Mỗi album thường chứa từ 10 đến 15 hát thường ca sĩ hay nghệ sĩ Ngày nay, với bùng nổ Internet băng thông rộng, đĩa CD/DVD băng từ trở nên khơng cịn phổ biến dần thay sở liệu (CSDL) nhạc số Mỗi cá nhân sở hữu hàng nghìn nhạc số họ tự xây dựng thư viện âm nhạc theo sở thích cho riêng để thưởng thức chia sẻ chúng đến với cộng đồng Các nghiên cứu liên quan đến khai phá liệu âm nhạc đa dạng thực từ lâu, theo nhiều hướng khác như: Phân lớp âm nhạc theo thể loại (MGC - Music Genre Classification), định danh nghệ sĩ/ca sĩ, phát cảm xúc/tâm trạng, nhận biết nhạc cụ… Tuy nhiên, với số lượng tác phẩm âm nhạc số hoá ngày nhiều gây khơng khó khăn cho người u nhạc (thậm chí chuyên gia) việc tổ chức CSDL nhạc số khổng lồ Việc tìm kiếm phương pháp để khám phá, giới thiệu quảng bá âm nhạc đặt cho ngành công nghiệp nhạc số nhóm nghiên cứu thách thức không nhỏ Năm 2003, luận văn mình, Heittola [1] đề xuất phương pháp hữu dụng để quản lý CSDL nhạc số khổng lồ cách phân lớp âm nhạc theo thể loại Tuy nhiên, việc xác định thể loại âm nhạc cụ thể cịn vấn đề khó, ranh giới thể loại âm nhạc thường không rõ ràng Một nhạc kết hợp yếu tố từ nhiều thể loại khác nhau, làm cho việc phân loại trở nên khó khăn Mặt khác, thể loại âm nhạc chứa nhiều phong cách, biến thể, ảnh hưởng từ văn hóa khác nhau, dẫn đến đa dạng cách biểu đạt âm Do đó, việc đưa khái niệm thể loại chưa rõ ràng, phụ thuộc nhiều vào cảm tính nhận thức người [2] Việt Nam quốc gia đa dân tộc với văn hóa lâu đời nên dân ca Việt Nam đa dạng phong phú Dân ca dân tộc, vùng miền lại mang màu sắc, sắc văn hố riêng Ở Bắc Bộ có Quan họ Bắc Ninh, hát Chèo, hát Xoan, hát Ví, hát Trống qn, hát Dơ, …; Trung Bộ có hát Ví dặm, Hị Huế, Lý Huế, hát Sắc bùa, …; Nam Bộ có điệu Lý, điệu Hị, nói thơ, …; miền núi phía Bắc có dân ca đồng bào Thái, H' Mông, Mường, …; vùng Tây Nguyên có dân ca dân tộc Gia-Rai, Ê-Đê, Ba-Na, Xơ-Đăng… Dân ca kho tàng văn hố vơ rộng lớn, đa dạng phong phú dân tộc Việt Nam Từ lý nêu trên, tác giả lựa chọn đề tài nghiên cứu luận án “Định danh tự động số làn điệu dân ca Việt Nam” nhằm tìm hiểu sâu kho tàng dân ca Việt Nam, đặc biệt nghiên cứu đề xuất mơ hình hiệu định danh tự động số điệu dân ca Việt Nam, góp phần bảo tồn đưa dân ca Việt Nam ngày trở nên phổ biến Mục tiêu nghiên cứu luận án Mục tiêu Luận án nghiên cứu định danh tự động số điệu dân ca Việt Nam dựa phương diện xử lý tín hiệu dùng học máy học sâu Luận án tập trung nghiên cứu số mô hình đề xuất mơ hình phù hợp dùng cho định danh tự động điệu dân ca Việt Nam, với liệu dùng cho định danh điệu phổ biến Chèo Quan họ Ngoài ra, luận án thực phân lớp thể loại âm nhạc hai liệu tiếng GTZAN FMA nhằm khẳng định khả tổng quát hố mơ hình đề xuất, đồng thời đánh giá ảnh hưởng phương pháp tăng cường liệu đến độ xác mơ hình Nhiệm vụ nghiên cứu luận án Để đạt mục tiêu đề ra, luận án cần thực nhiệm vụ sau đây: • Nghiên cứu quy trình, phương pháp luận xây dựng liệu dân ca dùng cho nghiên cứu • Nghiên cứu đặc trưng tín hiệu âm nhạc thường sử dụng để xác định thể loại âm nhạc • Nghiên cứu tổng quan phương pháp thuật toán phân lớp âm nhạc theo thể loại • Nghiên cứu mơ hình thường dùng để phân lớp thể loại âm nhạc SVM, GMM, DNN … • Thực định danh tự động số điệu dân ca Việt Nam phổ biến (Chèo, Quan họ) đưa phân tích, nhận xét, đánh giá kết đạt • Thực phân lớp thể loại âm nhạc hai liệu âm nhạc theo thể loại GTZAN FMA_SMALL, phân tích kết đưa kết luận mơ hình đề xuất, đồng thời đánh giá ảnh hưởng phương pháp tăng cường liệu thực Đối tượng phạm vi nghiên cứu luận án Mỗi vùng miền, dân tộc đất nước Việt Nam lại có thể loại dân ca khác Đối tượng nghiên cứu luận án định danh tự động số điệu dân ca Việt Nam dựa phương diện xử lý tín hiệu, học máy học sâu, từ đề xuất mơ hình phù hợp cho nhiệm vụ Trong khn khổ có hạn luận án, việc nghiên cứu tập trung vào định danh tự động điệu dân ca phổ biến Chèo Quan họ Ý nghĩa khoa học thực tiễn luận án • Về mặt lý thuyết, luận án góp phần làm sáng tỏ mơ hình phân lớp âm nhạc theo thể loại áp dụng cho định danh điệu dân ca Việt Nam phổ biến, tạo tiền đề cho nghiên cứu lĩnh vực • Kết nghiên cứu luận án có nhiều đóng góp thực tiễn, kể đến như: o Trong lịch sử văn hoá: Định danh điệu dân ca góp phần giúp ghi nhận lưu giữ di sản văn hóa dân tộc, phản ánh lịch sử phát triển, sinh hoạt tinh thần cộng đồng, đồng thời giúp tìm hiểu đa dạng văn hóa, kết nối dân tộc tương tác người với tự nhiên o Trong giáo dục: Việc định danh nghiên cứu điệu dân ca góp phần giới thiệu văn hóa dân gian cho hệ trẻ, giúp họ có thêm hiểu biết tự hào di sản văn hóa tổ tiên Đồng thời, việc dạy học truyền bá điệu dân ca góp phần giáo dục đạo lý, tình u q hương đất nước bồi dưỡng nhân cách cho người o Trong nghệ thuật: Làn điệu dân ca nguồn gốc nhiều loại hình nghệ thuật âm nhạc, múa, kịch Việc định danh nghiên cứu điệu dân ca góp phần phát triển, bảo tồn tiếp nối loại hình nghệ thuật dân gian, từ đóng góp vào phong phú, đa dạng văn hóa o Trong cơng nghệ liên quan đến âm nhạc: ▪ Đối với hệ thống quản lý âm nhạc: Hỗ trợ hệ thống quản lý âm nhạc tự động phân lớp đưa hát vào danh mục tương ứng, giúp cho việc quản lý tìm kiếm âm nhạc trở nên dễ dàng ▪ Đối với người nghe nhạc: Giúp người nghe nhạc dễ dàng tìm kiếm lựa chọn hát phù hợp với sở thích hay tâm trạng o Trong nghiên cứu: Làm tiền đề cho nghiên cứu khai phá liệu âm nhạc, đặc biệt kho tàng âm nhạc dân ca Việt Nam Phương pháp nghiên cứu Phương pháp nghiên cứu thực luận án nghiên cứu lý thuyết kết hợp với thực nghiệm • Về mặt lý thuyết, luận án nghiên cứu lý thuyết chung mơ hình phân lớp âm nhạc theo thể loại, đề xuất mô hình định danh điệu dân ca Việt Nam phổ biến • Về mặt thực nghiệm, sử dụng mơ hình phân lớp đề xuất để định danh tự động điệu dân ca phổ biến Việt Nam Chèo Quan họ, từ nhận xét, đánh giá kết đạt để xác nhận giá trị mơ hình đề xuất Kết mới luận án Kết nghiên cứu luận án tóm tắt tập trung vào điểm sau: • Xây dựng liệu âm nhạc dân ca gồm điệu dân ca phổ biến Chèo Quan họ dùng cho nghiên cứu định danh điệu dân ca thuộc liệu • Đề xuất mơ hình học máy truyền thống học sâu để định danh số điệu Chèo Quan họ phổ biến • Đề xuất phương pháp tăng cường liệu mơ hình học sâu thích hợp cho phân lớp thể loại âm nhạc nói chung Cấu trúc luận án Luận án trình bày chương với nội dung tóm tắt sau: Chương 1: Tổng quan âm nhạc phân lớp âm nhạc theo thể loại Chương trình bày số khái niệm liên quan đến âm thanh, âm nhạc; số yếu tố số đặc trưng trích chọn từ tín hiệu âm nhạc; số thể loại nhạc phổ biến giới đôi nét nhạc dân ca Việt Nam (Chèo Quan họ); khái niệm thể loại âm nhạc sơ đồ hệ thống phân lớp âm nhạc theo thể loại; số liệu âm nhạc theo thể loại điển hình; số mơ hình thường dùng phân lớp thể loại âm nhạc; tình hình nghiên cứu phân lớp âm nhạc theo thể loại nước đề cập Chương Chương 2: Định danh số điệu dân ca Việt Nam Đầu tiên, phần giới thiệu việc thu thập liệu nhạc dân ca, phương pháp xử lý liệu để xây dựng liệu nhạc dân ca Một số phương pháp tăng cường liệu âm nhạc như: chia đôi file liệu âm nhạc, tạo tiếng vọng, cộng nhiễu trắng thay đổi cao độ đề cập Chương Bộ tham số dùng cho phân lớp định danh bao gồm hệ số MFCC, lượng, tần số F0 biến thể F0, phổ Mel, pitch, tonnetz, spectral chroma Tiếp theo, chương trình bày kết phân lớp, định danh số điệu dân ca Chèo Quan họ dùng số thuật toán học máy truyền thống SVM, GMM mơ hình học sâu mạng CNN, LSTM, CRNN Chương 3: Trình bày số kết nghiên cứu phân lớp thể loại âm nhạc liệu nhạc Việt (Zalo AI Challenge 2018), GTZAN FMA_SMALL sử dụng học sâu RAN, LSTM, CNN, GRU, CSN, DenseNet Việc phân tích, đánh giá ảnh hưởng phương pháp tăng cường liệu đến kết phân lớp trình bày Chương Cuối cùng, phần Kết luận tổng hợp kết nghiên cứu đạt được, đóng góp hướng mở rộng nghiên cứu phát triển luận án TỔNG QUAN VỀ PHÂN LỚP ÂM NHẠC THEO THỂ LOẠI 1.1 Âm thanh, âm nhạc Trình bày số khái niệm âm thanh, âm nhạc; thuộc tính âm nhạc số yếu tố âm nhạc 1.2 Một số đặc trưng trích chọn từ tín hiệu âm nhạc Phần trình bày số đặc trưng trích chọn từ tín hiệu âm nhạc: Các đặc trưng thống kê; đặc trưng miền thời gian; đặc trưng miền tần số đặc trưng phổ 1.3 Một số thể loại âm nhạc phổ biến giới Trình bày khái niệm thể loại âm nhạc số thể loại âm nhạc phổ biến giới như: Pop, Rock, Classical, Country… 1.4 Đơi nét về dân ca Việt Nam Trình bày khái quát dân ca Việt Nam loại hình dân ca có số lượng điệu phong phú Chèo Quan họ Đặc điểm âm nhạc, lời ca Chèo Quan họ So sánh kỹ thuật hát Chèo với kỹ thuật hát Quan họ 1.5 Phân lớp âm nhạc theo thể loại Sơ đồ khối tổng quan hệ thống phân lớp âm nhạc theo thể loại dùng kỹ thuật học máy tác giả nước đề xuất [22]: Huấn luyện Trích rút đặc trưng Bộ liệu âm nhạc Nhận dạng Trích rút đặc trưng Các kỹ thuật Bài hát cần phân lớp Xây dựng mơ hình học máy Trích rút đặc trưng Đánh giá mơ hình Thể loại nhạc xác định Ứng dụng Hình 1.12 Sơ đờ chung cho hệ thống phân lớp thể loại âm nhạc 1.6 Một số liệu âm nhạc theo thể loại điển hình Các nghiên cứu âm nhạc đa dạng phong phú, với khía cạnh nghiên cứu lại có liệu tương ứng Tuy nhiên, phần trình bày số liệu âm nhạc theo thể loại điển hình sử dụng nghiên cứu phân lớp thể loại âm nhạc như: GTZAN, ISMIR2004, LATIN MUSIC, FMA… 1.7 Một số phân lớp thường dùng định danh thể loại âm nhạc Phần trình bày số mơ hình học máy truyền thống SVM, GMM số mơ hình học sâu CNN, LSTM, GRU, CRNN, RAN, CSN, DenseNet sử dụng nghiên cứu phân lớp âm nhạc theo thể loại 1.8 Một số kết định nghiên cứu phân lớp âm nhạc ngoài nước Phần trình bày số kết nghiên cứu phân lớp thể loại âm nhạc thực nước Tại Việt Nam nghiên cứu phân lớp âm nhạc theo thể loại mẻ chưa phát triển mạnh mẽ 1.9 Kết chương Chương trình bày tổng quan số khái niệm yếu tố âm nhạc; đặc trưng tín hiệu âm nhạc; khái niệm thể loại nhạc, đặc điểm số thể loại nhạc phổ biến đôi nét nhạc dân ca Việt Nam Đồng thời, Chương trình bày số nghiên cứu phân lớp âm nhạc theo thể loại thực tác giả nước ngồi Có thể thấy, nghiên cứu lĩnh vực âm nhạc phát triển mạnh mẽ theo nhiều hướng khác từ sau năm 2000 Tuy nhiên, phân lớp thể loại âm nhạc vấn đề khó giải quyết, giải tốt có đóng góp nhiều thực tiễn thương mại Tại Việt Nam, có số nghiên cứu phân lớp thể loại âm nhạc liệu nhạc Quốc tế nhạc Việt Nam Tuy nhiên, chưa có cơng bố thức phân lớp thể loại nhạc Việt, đặc biệt nhạc Dân ca Việt Nam ĐỊNH DANH MỘT SỐ LÀN ĐIỆU DÂN CA VIỆT NAM 2.1 Bộ liệu âm nhạc Chèo Quan họ Trình bày tiêu chí phương pháp xây dựng liệu DANCA dùng cho nghiên cứu Bộ liệu DANCA gồm 25 điệu Chèo 25 điệu Quan họ, số lượng file ứng với điệu lấy cân 20 file Do đó, số lượng file cho điệu Chèo 500 file số lượng file cho điệu Quan họ Tổng số file liệu 1000 file 2.2 Một số phương pháp tăng cường liệu Phần trình bày vai trị liệu mơ hình mạng nơron sâu Một số phương pháp tăng cường liệu âm nhạc sử dụng nghiên cứu luận án như: chia đôi file liệu âm nhạc, tạo tiếng vọng, cộng nhiễu trắng thay đổi cao độ 2.3 Phân lớp, định danh số làn điệu dân ca Việt Nam dùng số thuật toán học máy truyền thống Trong phần này, luận án tiến hành trường hợp nghiên cứu phân lớp định danh số điệu dân ca Việt Nam Phân lớp xác định loại thể loại đoạn nhạc hát cụ thể Định danh xác định cụ thể tên nhạc hát dựa đoạn âm định Bảng 2.2 thông tin chi tiết mô hình, liệu, tham số số lượng tham số sử dụng trường hợp Bảng 2.2 Các trường hợp nghiên cứu phân lớp định danh Bộ liệu Mơ hình SMO, MultiLayer Perceptron, MultiClass 10 điệu Classifier Quan họ thuộc WEKA GMM Các trường hợp nghiên cứu Bộ tham số Số lượng Định danh MFCC, ZCR, xác xuất âm hữu thanh, F0, lượng 384 MFCC + lượng 60 MFCC+năng lượng + F0 61 MFCC, lượng 60 S1 (MFCC + lượng) 60 S1 + tempo 61 S1 + F0 + intensity 62 S1 + F0 + intensity + tempo 63 S1 (MFCC + lượng) 60 S1 + tempo 61 S1 + F0 + intensity 62 S1 + F0 + intensity + tempo 63 MFCC + lượng 60 Định danh Phân lớp Định danh Phân lớp GMM DANCA Định danh i-Vector Định danh 2.3.1 Trường hợp 1: Định danh số điệu Quan họ dùng số mơ hình truyền thống thuộc cơng cụ WEKA Bảng 2.6 Tổng hợp kết định danh Phương pháp SMO MultiLayer Perceptron MultiClass Classifier Trung bình tỷ lệ định danh đúng 89,0% 86,0% 71,0% Tỷ lệ nhận dạng trung bình (%) 2.3.2 Trường hợp 2: Định danh số điệu Quan họ dùng GMM Nghiên cứu thực mơ hình GMM với liệu dùng trường hợp liệu dùng trường hợp Mục đích nghiên cứu nhằm đánh giá ảnh hưởng tham số tần số (F0) đến kết định danh Bộ tham số thứ gồm 60 hệ số (19 MFCC + lượng = 20, đạo hàm bậc đạo hàm bậc hai 20 hệ số này) Bộ tham số thứ gồm 61 hệ số, hệ số tham số thứ bổ sung thêm F0 85 80 72 69 70 65 60 79 75 75 65 62 69 70 64 66 70 72 71 73 65 65 61 63 62 58 55 16 32 64 128 256 512 1024 2048 4096 8192 Số thành phần Gauss M 60 tham số 61 tham số Hình 2.5 Kết định danh với số thành phần Gauss M = 16  8192 Kết luận: Tham số F0 bổ sung làm tăng kết định danh 2.3.3 Trường hợp 3: Phân lớp, định danh Chèo Quan họ dùng GMM Nghiên cứu thực liệu DANCA dùng GMM tiến hành trường hợp là: Phân lớp Định danh Phân lớp: Trong trường hợp này, liệu đưa vào nhận dạng phân vào lớp Chèo Quan họ Hình 2.6 Tỷ lệ phân lớp phân lớp sơ Định danh: Trong trường hợp này, liệu đưa vào nhận dạng xác định điệu Chèo Quan họ Hình 2.7 Tổng hợp kết định danh với M = 16  4096 2.3.4 Trường hợp 4: Phân lớp Chèo Quan họ dùng GMM Phân lớp Chèo Quan họ dùng GMM với tham số S1 (60 MFCC), S2 (S1 + tempo), S3 (S1 + F0 + Intensity) S4 (S3 + Tempo) Mục đích nghiên cứu đánh giá ảnh hưởng tham số Tempo, Intensity F0 đến kết phân lớp Hình 2.10 Trung bình tỷ lệ phân lớp với tham số liệu Quan họ Hình 2.12 Trung bình tỷ lệ phân lớp với tham số liệu Chèo 10 3.2.5 Trường hợp 5: Định danh Choè Quan họ dùng trích đoạn ngắn Dữ liệu dùng cho nhận dạng trích đoạn ngắn có độ dài thay đổi từ 4, 6, 8, …, 16 giây, trích xuất ngẫu nhiên từ 20% liệu nhận dạng Mục đích nghiên cứu để xác định xem tỷ lệ nhận dạng thay đổi thay đổi độ dài đoạn trích Trong phạm vi nội dung luận án trình bày kết nghiên cứu ứng với giá trị M = 512, 1024 2048 Với giá trị M thể rõ ảnh hưởng tham số Tempo, Intensity F0 đến kết định danh Hình 2.14 kết định danh trích đoạn điệu Chèo với ba giá trị M tương ứng Có thể thấy độ dài đoạn trích ngắn thơng số Tempo, Intensity F0 khơng có ảnh hưởng đáng kể đến tỷ lệ định danh Với M = 512 (Hình 2.14a), tác động tham số bổ sung rõ rệt độ dài đoạn trích từ 14 giây trở lên a) M = 512 b) M = 1024 11 c) M = 2048 Hình 2.14 Tỷ lệ định danh trích đoạn Chèo ứng với giá trị M Kết định danh trích đoạn điệu Quan họ với ba giá trị M tương ứng Hình 2.15a, 2.15b 2.15c Các thơng số bổ sung có tác động tích cực đến kết định danh a) M = 512 b) M = 1024 12 c) M = 2048 Hình 2.15 Tỷ lệ định danh trích đoạn Quan họ với giá trị M Kết cho thấy, với độ dài trích đoạn 16 giây, trung bình tỷ lệ định danh đạt 91,09% so với 94,18% sử dụng toàn thời lượng điệu Chèo Với độ dài trích đoạn 16 giây cho hát Quan họ, tỷ lệ định danh đạt 94,44% so với 96,89% cho toàn file âm 2.3.6 Trường hợp 6: Định danh Chèo Quan họ dùng i-vectors Các i-vector sử dụng cho mơ hình GMM để nhận dạng người nói sau kết thử nghiệm sử dụng i-vector với mơ hình GMM để phân loại hai thể loại dân ca Việt Nam Chèo Quan họ Hình 3.12 3.13 so sánh tỷ lệ định danh Chèo Quan họ với i-vector tham số S1 Hình 2.16 So sánh tỷ lệ định danh trung bình sử dụng i-vector với GMM đối với tham số S1 tập liệu Chèo 13 Hình 2.17 So sánh tỷ lệ định danh trung bình sử dụng i-vector với GMM đối với tham số S1 tập liệu Quan họ 2.4 Phân lớp và định danh số làn điệu dân ca Việt Nam dùng học sâu 2.4.1 Bộ liệu tham số sử dụng Dữ liệu sử dụng liệu DANCA gồm 1000 file loại hình dân ca Chèo Quan họ Công cụ LibROSA [111] sử dụng để phân tích trích xuất đặc trưng từ liệu thử nghiệm Các đặc trưng chọn bao gồm 157 hệ số phổ mel 26 tham số khác (cao độ (1), tonnetz (6), độ tương phản phổ (7) âm sắc (12)) Bảng 2.14 Các tham số dùng thử nghiệm Các đặc trưng Mel spectrogram pitch tonnetz spectral contrast chroma Tổng số: Số lượng 157 12 183 S1 157 S2 183 157 183 2.4.2 Kết phân lớp định danh Chèo Quan họ Nghiên cứu tiến hành trường hợp: Phân lớp (xác định điệu Chèo hay Quan họ) định danh (xác định điệu Chèo Quan họ) Bảng 4.5 trung bình độ xác phân lớp Chèo Quan họ với hai tham số S1 S2 ba mô hình CNN, LSTM CRNN 14 Bảng 2.18 Tổng hợp kết phân lớp Chèo Quan họ với tham số Đối với tham số S1, mô hình CRNN2 có trung bình tỷ lệ định danh cao đạt 99,66% Còn tham số S2, mơ hình CNN có trung bình tỷ lệ định danh cao đạt 99,92% Bảng 2.19 Bảng 2.20 độ xác trung bình việc định danh điệu Quan họ Chèo với mơ hình CNN, LSTM CRNN Mơ hình CNN có trung bình tỷ lệ định danh cao hai tham số S1 S2 Bảng 2.19 Tổng hợp kết định danh liệu Quan họ 15 Bảng 2.20 Tổng hợp kết định danh liệu Chèo Với liệu DANCA, độ xác phân lớp định danh mơ hình CNN, LSTM CRNN cao so với kết đạt trước dùng mơ hình GMM 2.5 Kết chương Chương trình bày kết phân lớp định danh số điệu Chèo Quan họ sử dụng mạng nơ-ron sâu CNN, LSTM CRNN Kết phân lớp định danh cho thấy, mạng CNN có kết cao so với LSTM CRNN Kết phân lớp định danh dùng mạng nơron sâu cao so với kết dùng mơ hình GMM liệu Các kết nghiên cứu Chương cơng bố báo số 1, 2, 3, Danh mục cơng trình nghiên cứu luận án III PHÂN LỚP THỂ LOẠI ÂM NHẠC TRÊN BỘ DỮ LIỆU NHẠC VIỆT, GTZAN VÀ FMA DÙNG HỌC SÂU 3.1 Các độ đo Accuracy, Precision, Recall và f1-score Trình bày đại lượng đánh giá dùng nghiên cứu liệu GTZAN FMA 3.2 Phân lớp nhạc Việt dùng RAN Bộ liệu âm nhạc Music Classification đưa thử thách Zalo AI Challenge 2018 Đây liệu gồm 10 thể loại nhạc Việt Nam 16 gán nhãn từ Class đến Class 10 Số lượng file thể loại không nhau, tổng số lượng file liệu 867 file Hình 3.1 chi tiết số lượng file tương ứng với 10 thể loại nhạc Hình 3.1 Sớ lượng file tương ứng với thể loại tập liệu Để giải vấn đề cân liệu, trình chuyển đổi liệu âm (dạng MP3) thành ảnh phổ Đối với lớp có liệu hơn, liệu âm chia thành nhiều hình ảnh Ngược lại, mẫu có nhiều lớp liệu, liệu âm tách thành hình ảnh Cuối cùng, số lượng ảnh phổ Class hiển thị Hình 3.2 Mỗi fold có 12.441 ảnh phổ Hình 3.2 Số lượng ảnh phổ tập liệu huấn luyện Trong nghiên cứu này, RAN sử dụng để phân lớp thể loại nhạc liệu Zalo AI Challenge 2018 dựa ảnh phổ tín hiệu âm nhạc Hình 3.3 kiến trúc RAN đề xuất sử dụng nghiên cứu phân lớp thể loại nhạc 17 Dữ liệu huấn luyện chia thành phần nhau, sử dụng phương pháp đánh giá chéo Thử nghiệm phân lớp tập liệu nhận dạng (test) cho độ xác 71,7% Đây kết cạnh tranh đầy hứa hẹn so với 70,1% kết đội đạt giải Zalo AI Challenge 2018 với liệu Input images 224x224x3 Residual Block Convolution and Max Pooling Attention Module Residual Block images 14x14x1024 Residual Block Residual Block images 7x7x2048 images 56x56x256 Residual Block Max Pooling and Full Connected Attention Module Attention Module Output 1x1x10 Residual Block images 28x28x512 3.3 Nghiên cứu phân lớp đối với liệu GTZAN FMA Như trình bày nội dung Hình 3.3 Sơ đờ kiến trúc RAN đây, kết nghiên cứu dùng nghiên cứu phân lớp luận án liệu GTZAN FMA_SMALL vượt trội so với kết nghiên cứu phân lớp khác có giới (Bảng 1.5 1.6) với hai liệu 3.3.1 Nghiên cứu phân lớp GTZAN Trong nghiên cứu này, mơ hình CNN, LSTM, GRU CSN sử dụng để phân lớp thể loại âm nhạc liệu GTZAN Bộ tham số sử dụng gồm 300 hệ số phổ Mel Chi tiết liệu sử dụng mô tả chi tiết Bảng 3.9 Bảng 3.11 thể trung bình độ xác (%) phân lớp AUC mơ hình LSTM, CNN, GRU CSN thực phân lớp liệu S7 Có thể thấy, mơ hình CSN có trung bình tỷ lệ định danh cao đạt 99,91% Kết vượt trội so với nghiên cứu công bố tập liệu 18 Bảng 3.11 Trung bình độ xác AUC LSTM, CNN, GRU, CSN S7 Mơ hình LSTM CNN GRU CSN Accuracy (%) 99,66 99,87 99,87 99,91 AUC 1 1 Để xác định hiệu việc tăng cường liệu, mơ hình GRU thực MGC với tập liệu S0, S1, S2n1, S2n2, S2n3, S2u S2d Hình 3.10 Độ xác phân loại GRU tập liệu khác Hình 3.10 thể độ xác MGC, thử nghiệm dùng mơ hình GRU tập liệu S0, S1, S2n1, S2n2, S2n3, S2u S2d Có thể thấy, kỹ thuật tăng cường liệu phát huy hiệu tích cực việc nâng cao tỷ lệ phân lớp 3.3.3 Nghiên cứu phân lớp Small FMA Bộ liệu dùng nghiên cứu mơ tả Bảng 3.15 Các mơ hình sử dụng gồm CNN, GRU, DenseNet (169, 121 201) Dữ liệu sử dụng tăng cường cách kết hợp nhiều phương pháp tăng cường liệu khác Kích thước file ảnh đầu vào 230 × 230 19 Tóm tắt độ xác mơ hình DenseNet169, DenseNet121, DenseNet201, CNN GRU mơ tả Hình 3.11 Hình 3.11 Độ phân lớp xác mơ hình liệu S4fL Như vậy, mơ hình DenseNet121 cho độ xác cao 98,97% với tập liệu S4fL độ xác vượt trội so với hầu hết nghiên cứu hiên có giới với tập liệu Để hiểu rõ tác động việc tăng cường liệu, thực nghiệm thực ba liệu S1, S2 S3e dùng mơ hình DenseNet169 Độ xác MGC mơ hình DenseNet169 theo kích thước liệu tăng cường cho Hình 3.13 Có thể thấy rằng, độ xác MCG tăng lên kích thước liệu tăng từ hai lên bốn lần Hình 3.13 Độ xác DenseNet169 phụ thuộc vào kích thước liệu 3.4 Kết chương Chương trình bày kết nghiên cứu phân lớp thể loại âm nhạc liệu nhạc Việt thử thách Zalo AI 2018 hai liệu âm nhạc theo thể loại tiếng GTZAN FMA_SMALL sử dụng mơ hình CNN, 20 LSTM, GRU, CSN, DenseNet169, DenseNet121 DenseNet201 Kết phân lớp liệu nhạc Việt cho kết khả quan so với kết đội đạt giải thử thách Zalo AI 2018 Trong chương phân tích ảnh hưởng phương pháp tăng cường liệu đến kết nhận dạng Có thể nói rằng, việc tăng cường liệu làm tăng hiệu nhận dạng mơ hình, nhiên phải trả giá chi phí huấn luyện mơ hình Các kết nghiên cứu phân lớp thể loại âm nhạc hai liệu GTZAN FMA_SMALL khả quan vượt trội kết nghiên cứu khác giới công bố liệu Độ xác phân lớp thể loại âm nhạc vượt trội nghiên cứu hai liệu giải thích theo hai lý sau Trước hết lựa chọn mơ hình thích hợp, hai mơ hình CSN DenseNet mạnh xử lý ảnh Tiếp theo việc tận dụng ưu phương pháp tăng cường liệu, phương pháp chia đôi file liệu âm phương pháp chưa có nghiên cứu khác sử dụng song lại đơn giản hiệu Các kết nghiên cứu Chương công bố báo số 4, Danh mục cơng trình nghiên cứu luận án KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN Kết luận Luận án trình bày trình nghiên cứu, triển khai thuật tốn mơ hình học máy liên quan đến liệu âm nhạc phân lớp thể loại âm nhạc Nghiên cứu liên quan đến việc lấy âm nhạc gán nhãn theo thể loại, trích rút đặc trưng liên quan đến miền thời gian, miền tần số phổ Sau đó, đặc trưng trích rút đưa làm đầu vào cho mơ hình phân lớp truyền thống, thuật tốn học máy, mơ hình mạng nơ-ron sâu để phát thể loại âm nhạc cần nhận dạng Bộ liệu dùng nghiên cứu số điệu dân ca Việt Nam phổ biến mà điển hình Chèo Quan họ Ngồi ra, mơ hình mạng nơ-ron thử nghiệm ba liệu âm nhạc theo thể loại Bộ liệu thứ đến từ thử thách Zalo AI 2018; Bộ liệu thứ hai có tên GTZAN liệu lại FMA Đối với thuật toán học máy truyền thống: Nghiên cứu tiến hành 10 điệu Quan họ, sử dụng SMO, MultiLayer Perceptron MultiClass Classifier công cụ WEKA Kết 21 cao thuộc SMO (SVM) với tỷ lệ nhận dạng trung bình đạt 89,0% Kết nghiên cứu phân lớp định danh số điệu Chèo Quan họ dùng mô hình GMM với số thành phần Gauss M (thay đổi theo luỹ thừa 2) trường hợp Các công cụ ALIZE, Pratt, Matlab sử dụng để trích rút kết hợp đặc trưng gồm: Các hệ số MFCC đạo hàm, tần số F0, Tempo (BPM) Intensity - Trường hợp 1: Định danh 10 điệu Quan họ, đặc trưng sử dụng gồm hệ số MFCC + lượng + F0, thử nghiệm cho thấy vai trò tham số F0 làm tăng kết nhận dạng - Trường hợp 2: Phân lớp định danh tiến hành liệu DANCA gồm 1000 file, đặc trưng sử dụng gồm hệ số MFCC + lượng Trung bình kết phân lớp Chèo Quan họ cao đạt 93,8% với M = 4096 Trung bình kết định danh cao đạt 85,6% với M = 4096 - Trường hợp thứ ba: Nghiên cứu tiến hành với đặc trưng bổ sung với MFCC + lượng gồm: tần số F0, Intensity Tempo liệu DANCA Trung bình kết định danh cao (khi chưa bổ sung tham số) đạt 96,62% 96,72% (sau bổ sung tham số) Nghiên cứu định danh với trích đoạn ngắn (có độ dài thay đổi từ 4s  16s) trích từ liệu dùng cho nhận dạng Trung bình tỷ lệ nhận dạng với độ dài trích đoạn 16s đạt 94,44% so với sử dụng toàn nội dung file âm để nhận dạng Thử nghiệm i-vector cho kết nhận dạng thấp so với GMM Đối với mơ hình mạng nơ-ron sâu CNN, LSTM CRNN, nghiên cứu phân lớp định danh liệu DANCA với tham số (157 hệ số 183 hệ số) Trong nghiên cứu sử dụng phương pháp chia đôi file liệu âm nhạc để tăng cường liệu cho liệu DANCA thành 2000 file Kết phân lớp định danh với hai tham số cho thấy vượt trội mơ hình mạng nơ-ron sâu so với GMM, cụ thể: - Trung bình kết phân lớp cao thuộc mơ hình CRNN2 99,66% (157 hệ số) 99,92% (183 hệ số) thuộc mơ hình CNN, trung 22 bình tỷ lệ nhận dạng thấp đạt 99,16% với mơ hình CRNN1 Trong với GMM kết trường hợp phân lớp cao đạt 93,8% - Kết thử nghiệm định danh điệu Quan họ cao thuộc mơ hình CNN với 99,50% hai tham số Kết tương ứng với GMM định danh cao đạt 96,76% Quan họ - Nghiên cứu phân lớp thể loại nhạc Việt Zalo AI Challenge 2018 dùng RAN với đặc trưng phổ Trong nghiên cứu có sử dụng phương pháp tăng cường liệu để làm cho class có số ảnh cân Trung bình kết thử nghiệm cao đạt 71,7%, cao so với kết đạt giải (70,1%) thử thách - Nghiên cứu tiến hành liệu Small FMA Trường hợp có sử dụng kỹ thuật tăng cường liệu là: cộng nhiễu trắng, tạo tiếng vọng thay đổi cao độ Nghiên cứu tiến hành mô hình mạng DenseNet, CNN GRU, đặc trưng sử dụng gồm hệ số phổ Mel Kết đạt độ xác định danh thể loại âm nhạc 98,97% sử dụng DenseNet121 Độ xác định danh vượt trội độ xác tuyệt đại đa số nghiên cứu giới với liệu Small FMA - Cuối cùng, nghiên cứu phân lớp thể loại âm nhạc tiến hành liệu GTZAN với đặc trưng phổ Mel, sử dụng CNN, LSTM, GRU CSN (CapNet) Trong nghiên cứu có sử dụng phương pháp tăng cường liệu chia đôi file âm Trung bình độ xác định danh thể loại âm nhạc cao đạt 99,91% CSN Độ xác đạt vượt trội độ xác tất nghiên cứu có giới với liệu GTZAN Tóm lại, kết nghiên cứu cho thấy luận án có đóng góp khoa học sau: • Xây dựng liệu âm nhạc dân ca gồm điệu dân ca phổ biến Chèo Quan họ • Đề xuất mơ hình học máy truyền thống học sâu để định danh số điệu Chèo Quan họ phổ biến 23 • Đề xuất phương pháp tăng cường liệu mơ hình học sâu thích hợp cho phân lớp thể loại âm nhạc nói chung Định hướng phát triển Trong khn khổ có hạn luận án, nội dung nghiên cứu trước hết tập trung vào 25 điệu Chèo 25 điệu Quan họ Như trình bày trên, số lượng điệu Chèo Quan họ phong phú, có số điệu phổ biến (có nhiều ca sĩ thể hiện) nên cần nhiều thời gian, cơng sức để sưu tầm liệu đủ lớn Từ kết nghiên cứu, luận án đề xuất số nội dung nhằm mở rộng hướng nghiên cứu tại: • Nâng cao số lượng liệu điệu dân ca Chèo Quan ho để có liệu hoàn chỉnh phục vụ cho nghiên cứu định danh điệu dân ca Việt Nam thuộc hai loại hình dân ca • Xây dựng cơng cụ tự động tìm kiếm theo thể loại sáng tác âm nhạc cơng bố có sẵn Internet 24

Ngày đăng: 29/09/2023, 17:25

w