Phân loại nhạc theo thể loại dùng phép biến đổi wavelet rời rạc

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	11
Dung lượng	556,29 KB

Nội dung

Bài viết thực hiện minh hoạ trên bốn thể loại Classical, Rock, Jazz và Pop. Nghiên cứu này có thể áp dụng mở rộng đối với các thể loại nhạc khác hoặc xây dựng các hệ thống truy vấn thông tin nhạc dựa vào nội dung, kiểm tra việc sao chép bản quyền nhạc.

Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00064 PHÂN LOẠI NHẠC THEO THỂ LOẠI DÙNG PHÉP BIẾN ĐỔI WAVELET RỜI RẠC Phan Anh Cang 1, Phan Thượng Cang2 Khoa Công Nghệ Thông Tin, Trường Đại học Sư Phạm Kỹ Thuật Vĩnh Long Khoa Công Nghệ Thông Tin, Trường Đại học Cần Thơ cangpa@vlute.edu.vn, ptcang@cit.ctu.edu.vn TÓM TẮT— Cùng với bùng nổ công nghệ thông tin gia tăng nhu cầu sưu tập nhạc số cá nhân hay tổ chức, việc phân loại nhạc để dễ dàng quản lý nhu cầu tất yếu Tuy nhiên, việc sưu tầm từ nhiều nguồn khác nên việc phân loại dựa thơng tin ghi tập tin lưu trữ cịn gặp nhiều hạn chế Với số lượng đồ sộ nhạc việc phân loại nhạc thách thức người nghe nhạc hệ thống lưu trữ âm nhạc Điều làm cho nhu cầu xây dựng hệ thống phân loại nhạc tự động trở nên cần thiết Trong báo này, đề xuất hệ thống phân loại nhạc theo thể loại sử dụng phương pháp rút trích tập đặc trưng tín hiệu audio bao gồm âm sắc (timbral texture), nhịp điệu (rhythmic content) cao độ (pitch) phục vụ cho việc phân loại nhạc tự động theo thể loại Trong đó, phép biến đổi wavelet rời rạc để phân tích tín hiệu audio thành băng tần dùng cho việc xác định đặc trưng nhịp điệu Nghiên cứu thực minh hoạ bốn thể loại Classical, Rock, Jazz Pop Nghiên cứu áp dụng mở rộng thể loại nhạc khác xây dựng hệ thống truy vấn thông tin nhạc dựa vào nội dung, kiểm tra việc chép quyền nhạc, Từ khóa— Phân loại nhạc, wavelet rời rạc, tín hiệu âm nhạc, rút trích đặc trưng tín hiệu audio I GIỚI THIỆU Trong năm gần đây, với phát triển công nghệ thông tin, số lượng nhạc hình thức liệu audio kho liệu lớn, Internet, ngày gia tăng nhanh chóng Điều làm cho việc sở hữu nhạc trở nên dễ dàng hết, kéo theo gia tăng nhu cầu sưu tập nhạc số cá nhân hay tổ chức Hiện nay, hầu hết hệ thống lưu trữ nhạc số xếp nhạc theo tên nhạc sĩ theo tên hát người nghe nhạc quan tâm đến thể loại nhạc Điều nảy sinh nhu cầu phân loại nhạc tự động theo thể loại hệ thống lưu trữ nhạc số phép người nghe nhạc tìm kiếm nhạc theo yêu cầu Tuy nhiên, với số lượng lớn nhạc số sưu tầm được, việc phân loại chúng để dễ dàng quản lý trở thành thách thức hệ thống phân loại nhạc tự động Điều việc sưu tầm nhạc thực từ nhiều nguồn nên có nhiều thông tin khác cho nhạc tải Bên cạnh đó, người sưu tầm tự nghe lại nhạc tự phân loại chúng thay dựa vào thơng tin có sẵn lưu trữ tập tin nhạc Theo cách này, độ xác phân loại nhạc tùy thuộc vào khả hiểu biết âm nhạc người phân loại Điều cho thấy, việc phân loại nhạc với phương pháp truyền thống cịn nhiều hạn chế độ xác không khả thi với số lượng lớn nhạc số Do đó, hệ thống phân loại nhạc tự động cần thiết hệ thống lưu trữ nhạc số, phát chép quyền, tìm kiếm thơng tin nhạc Internet, chúng cung cấp sở khoa học cho việc phân tích tín hiệu nhạc dựa vào nội dung Nhiều nghiên cứu đưa ý tưởng phát triển hệ thống phân loại nhạc tự động thời gian gần Anan et al đề xuất tiếp cận phân loại nhạc dựa độ đo tương đồng máy học véctơ hỗ trợ (Support vector machines - SVM) [1] Để xác định mức độ tương đồng tín hiệu audio, phương pháp biến đổi file audio định dạng MIDI thành ba tập liệu dạng chuỗi bao gồm cao độ, nhịp điệu, nốt nhạc (Pitch string, Rhythm string and Note string) Tuy nhiên, phương pháp không thực tế địi hỏi tất file audio định dạng MIDI hệ thống phiên âm đa âm tốn khó giải phân loại Một số phương pháp khác phân tích dựa hình dạng tín hiệu audio ảnh phổ Costa et al đề xuất cách tiếp cận dựa vào ảnh phổ để phân loại nhạc [2] Phương pháp phân tích tín hiệu audio thành ảnh phổ sau rút trích đặc trưng từ ảnh Tuy nhiên, khó để nhận biết thể loại nhạc cách xác dựa việc xem ảnh phổ mà khơng có phân tích dựa tiết tấu, cao độ,… âm Một cách tiếp cận khác cho việc phân loại nhạc dựa việc rút trích lựa chọn đặc trưng đề xuất nhiều nghiên cứu trình bày [3], [4] Trong đó, Matsui et al sử dụng đặc trưng hướng rút trích dựa thuật toán SIFT [4] Đặc trưng cung cấp thơng tin tần số tín hiệu nhạc Các kết thực nghiệm cho thấy việc kết hợp đặc trưng với phương pháp SVM làm cho phương pháp phân loại nhạc họ đạt độ xác 80% McKay et al cải tiến thuật toán phân loại nhạc cách sử dụng đặc trưng lời hát [5] Họ sử dụng nhiều đặc trưng kết hợp rút trích từ nhiều nguồn audio, lời hát, biểu tượng, văn hố liên quan đến thơng tin âm nhạc Các kết thực nghiệm cho thấy đặc trưng rút trích từ lời hát hiệu so với đặc trưng khác Chathuranga et al xây dựng hệ thống phân loại nhạc theo thể loại dựa cách tiếp cận máy học [6], phương pháp SVM với hàm nhân đa thức sử dụng Hai tập đặc trưng đề xuất biểu diễn cho miền tần số, miền thời gian, miền Cepstral thông tin thay đổi tần số tín hiệu audio Kết cho thấy phương pháp có độ xác phân loại 78% 81% tập liệu GTZAN ISMIR2004 tương ứng Rini Wongso, Diaz D Santika nghiên cứu kết hợp phương pháp TCWT (Tree Complex Wavelet Transform) SVM [7] Nghiên cứu tập trung vào việc phân PHÂN LOẠI NHẠC THEO THỂ LOẠI DÙNG PHÉP BIẾN ĐỔI WAVELET RỜI RẠC 522 loại bốn thể loại nhạc: Pop, Classical, Jazz Rock cách sử dụng số thống kê trung bình, độ lệch chuẩn, phương sai, entropy đặc trưng tín hiệu nhạc Trong báo này, giới thiệu thuật toán phân loại nhạc tự động theo thể loại dựa phương pháp nhận dạng K-NN (K-Nearest Neighbor) ba tập đặc trưng rút trích từ tín hiệu nhạc: âm sắc (timbral texture), nhịp điệu (rhythmic content) cao độ (pitch) Chúng sử dụng phép biến đổi wavelet rời rạc (DWT) để phân tích tín hiệu audio dùng cho việc xác định đặc trưng nhịp điệu Nghiên cứu thực minh hoạ bốn thể loại Classical, Rock, Jazz Pop Nó áp dụng mở rộng thể loại nhạc khác xây dựng hệ thống truy vấn thông tin nhạc dựa vào nội dung, kiểm tra việc chép quyền nhạc, Chúng trình bày việc lựa chọn đặc trưng phù hợp chúng ảnh hưởng đáng kể đến độ xác phân loại II CÁC CÔNG VIỆC NGHIÊN CỨU LIÊN QUAN 2.1 Phép biển đổi wavelet rời rạc Phép biến đổi Fourier thường dùng cho phân tích tín hiệu audio Tuy nhiên, có hạn chế ta khơng thể biết thời điểm xuất thành phần tần số Để khắc phục nhược điểm này, nhà khoa học sử dụng biến đổi STFT (Short time Fourier transform) Theo đó, tín hiệu chia thành khoảng nhỏ biến đổi Fourier khoảng Phương pháp có hạn chế việc chọn độ rộng khoảng tín hiệu phân chia cho phù hợp độ rộng nhỏ độ phân giải thời gian tốt phân giải tần số ngược lại Để khắc phục phương pháp trên, biến đổi wavelet đời Biến đổi wavelet (WT) thực sau: tín hiệu nhân với hàm Wavelet (tương tự nhân với hàm cửa sổ biến đổi STFT), sau thực phân tích riêng rẽ cho khoảng tín hiệu khác miền thời gian tần số khác Phép biến đổi wavelet rời rạc (DWT) trường hợp đặc biệt WT Nó cung cấp cách biểu diễn tín hiệu dạng nén miền thời gian-tần số giúp cho việc tính tốn cách nhanh chóng hiệu DWT thực phân tích đa phân giải tín hiệu audio x thành thành phần: thành phần tín hiệu thô A (coarse approximation) tương ứng với thành phần tần số thấp ylow thành phần tín hiệu chi tiết D (detail) tương ứng với thành phần tần số cao yhigh [8] Sau đó, thành phần tín hiệu thơ tiếp tục phân tích tương tự Như vậy, tín hiệu biểu diễn dạng tổng thành phần tín hiệu thơ thành phần tín hiệu chi tiết Q trình phân tích thực lọc băng tần cao thấp tín hiệu x biểu diễn Hình định nghĩa cơng thức (1) yhigh[k ]   x[n]g[2k  n] n ylow[k ]   x[n]h[2k  n] (1) n Trong đó: yhigh[k]: thành phần tần số cao; ylow[k]: thành phần tần số thấp; x[n]: tín hiệu audio; g[n]: lọc băng tần cao; h[n]: lọc băng tần thấp Hình DWT mức tín hiệu x Tín hiệu x[n] xác định cách tổng hợp tất hệ số yhigh ylow mức phân tích cuối Trong báo này, chúng tơi sử dụng DWT việc phân tích tín hiệu audio theo miền tần số để rút trích đặc trưng nhịp điệu sử dụng lọc băng tần DAUB4 [9] đề xuất Daubechies 2.2 Phương pháp phân loại KNN Có nhiều phương pháp phân lớp như: KNN, Bayes, HMMs, Gaussian, Trong nghiên cứu này, sử dụng phương pháp K-NN (K-Nearest Neighbor) [10] [11] đơn giản sử dụng phổ biến toán phân lớp Phương pháp cho phép bổ sung mẫu huấn luyện vào huấn luyện dễ dàng hiệu tập huấn luyện lớn Bên cạnh đó, huấn luyện huấn luyện từ vectơ đặc trưng rút trích từ tín hiệu audio Nó xử lý tốt với tập liệu nhiễu dựa khoảng cách vectơ đặc trưng để định phân lớp, phù hợp với hệ thống phân loại nhạc Phan Anh Cang, Phan Thượng Cang 523 Phương pháp K-NN xem mẫu (vectơ đặc trưng) điểm biểu diễn khơng gian đặc trưng n chiều (Hình 2) Khoảng cách mẫu cần phân loại x k mẫu láng giềng y d(x, y) xác định dựa khoảng cách không gian Thông thường, người ta dùng khoảng cách Euclide để xác định khoảng cách mẫu không gian đặc trưng xác định công thức (2) d ( x, y)  x  y  n  (x  y ) i 1 i x y Hình Mơ hình phân lớp K-NN (2) i Xác suất mẫu x thuộc vào thể loại ci xác định công thức (3): p(ci | x )  w yK , yc  ci w yK y (3) y Trong đó: wy= (1/d(x,y)); K tập hợp k mẫu láng giềng gần x nhất; yc thể loại y; ci thể loại thứ i Thuật toán K-NN: Xác định giá trị tham số k (số láng giềng gần nhất) Tính khoảng cách mẫu cần phân loại x với mẫu tập huấn luyện (sử dụng công thức (2)) Xác định k láng giềng gần với x nhãn thể loại chúng Xác định nhãn thể loại x: x gán nhãn thể loại ci p(ci | x) lớn (sử dụng cơng thức (3)) III RÚT TRÍCH ĐẶC TRƯNG TÍN HIỆU AUDIO Trên thực tế, tất đặc trưng tín hiệu audio đưa trực tiếp vào mơ hình phân loại làm giảm rõ rệt tốc độ huấn luyện phân loại Rút trích đặc trưng kỹ thuật tiền xử lý tín hiệu nhạc sử dụng phổ biến việc phân loại Q trình rút trích khử nhiễu tín hiệu chọn thơng tin cần thiết cho việc phân loại nhạc Ngoài ra, việc chọn lọc đặc trưng dùng để tạo tập đặc trưng từ liệu đầu vào nhằm làm tăng hiệu mặt thời gian việc nhận dạng tiến trình tự động hố dùng để giảm số chiều liệu cho liệu đầu vào chuyển đổi sang dạng đơn giản nhỏ trước đưa vào mơ hình phân loại Tín hiệu nhạc Rút trích đặc trưng Chọn lọc đặc trưng Vectơ đặc trưng Hình Sơ đồ rút trích đặc trưng từ tín hiệu nhạc Nhiều nghiên cứu đề xuất đặc trưng tín hiệu audio để nhận dạng, phân loại hệ thống nhận dạng, phân loại khác Mỗi nghiên cứu đưa số đặc trưng tín hiệu audio phương thức sử dụng để phân loại Các đặc trưng tín hiệu audio thường chia làm hai nhóm chính: đặc trưng miền thời gian – tần số đặc trưng cảm thụ âm người (nhịp điệu, cao độ) [6] Trong báo này, xây dựng hệ thống phân loại nhạc dựa ba tập đặc trưng sau: - Các đặc trưng âm sắc (Timbral Texture Features) - Các đặc trưng nhịp điệu (Rhythmic Content Features) - Các đặc trưng cao độ (Pitch Content Features) 3.1 Đặc trưng âm sắc Tập đặc trưng âm sắc sử dụng để biểu diễn đặc trưng âm nhạc liên quan đến tiết tấu, âm sắc nhạc cụ Vectơ đặc trưng âm sắc sử dụng hệ thống phân loại bao gồm 19 chiều với đặc trưng: (Trung bình độ lệch chuẩn Spectral Centroid, Rolloff, Flux, ZeroCrossing, LowEnergy, Trung bình độ lệch chuẩn hệ số MFCC đầu tiên) Trung bình độ lệch chuẩn đặc trưng xác định dựa STFT với cửa sổ phân tích chia tín hiệu đầu vào có độ dài 1s thành đoạn nhỏ khoảng 20ms Sau đặc trưng xác định cửa sổ phân tích: PHÂN LOẠI NHẠC THEO THỂ LOẠI DÙNG PHÉP BIẾN ĐỔI WAVELET RỜI RẠC 524 a) Đặc trưng 1: Spectral Centroid Spectral Centroid độ đo liên quan hình dáng phổ tần số Nó xác định điểm cân phổ tần số Giá trị Centroid cao tương ứng với phổ có độ sáng chói chứa nhiều tần số cao Spectral Centroid xác định công thức (4): N Ct   M [ n] * n t n 1 N  M [ n] (4) t n 1 Trong đó: Mt [n] biên độ tần số thứ n phổ tần số tương ứng với cửa sổ t b) Đặc trưng 2: Rolloff Rolloff độ đo liên quan hình dáng phổ tần số Điểm Rolloff phổ tần số (Rt) định nghĩa tần số biên mà 85% phân bố lượng tập trung phổ điểm Công thức (5) xác định Rt - điểm Rolloff phổ tần số Rt N n 1 n 1  M t [n]  0.85 M t [n] (5) c) Đặc trưng 3: Flux Flux xem độ biến thiên phổ, cho biết thay đổi biên độ tần số phân phối quang phổ hai cửa sổ phân tích liên tiếp Nó xác định bình phương hiệu biên độ chuẩn tần số phổ xác định công thức (6) N N t n  Ft   Nt n  Nt 1n M t n  M i  N i 1 n 1 (6) t Với Nt[n] Nt-1[n] biên độ chuẩn tần số thứ n phổ tần số cửa sổ t t-1 tương ứng d) Đặc trưng 4: Zero-crossings Zero Crossings cho biết mức độ ồn (noisiness) âm tín hiệu Nó xuất mẫu kề tín hiệu khác dấu Nó xác định số lần tín hiệu audio vượt qua trục zero đơn vị thời gian tính cơng thức (7): Zt  N  | sign( x[n])  sign( x[n  1]) | ; n 1 1 xn  signxn   0 xn  (7) x[n] tín hiệu miền thời gian cửa sổ t e) Đặc trưng 4: Low-Energy Khác với đặc trưng trên, đặc trưng Low-Energy xác định toàn tín hiệu miền thời gian Nó tỉ lệ phần trăm cửa sổ phân tích có RMS (Root-Mean-Square) lượng thấp RMS trung bình lượng tín hiệu cửa sổ phân tích Trong đó, RMS lượng tín hiệu cửa sổ t xác định công thức (8): N RMS t   (M [i] i 1 t ) (8) N f) Đặc trưng 6: Các hệ số MFCC (Mel-Frequency Cepstral Coefficients) MFCC tập đặc trưng dùng phổ biến hệ thống nhận dạng giọng nói, truy tìm thơng tin nhạc,… Nó cung cấp cách biểu diễn nén tín hiệu audio dạng phổ cho hầu hết lượng tín hiệu tập trung vào hệ số Hình mơ tả bước thực rút trích đặc trưng MFCC từ tín hiệu audio Chi tiết phương pháp rút trích đặc trưng MFCC mơ tả [12] Tín hiệu audio Chia nhỏ thành cửa sổ Fast Fourier Transform (FFT) Biến đổi sang thang Mel Hình Sơ đồ rút trích đặc trưng MFCC Phân tích Cepstral MFCC (13 hệ số) Phan Anh Cang, Phan Thượng Cang 525 Kết thu tập đặc trưng MFCC gồm 13 hệ số Tuy nhiên, nhiều nghiên cứu [13] [14] cho thấy hệ số MFCC cung cấp đầy đủ thông tin cho việc phân loại nhạc theo thể loại Vì vậy, để giảm số chiều cho vectơ đặc trưng, chọn hệ số MFCC cho hệ thống phân loại nhạc theo thể loại 3.2 Đặc trưng nhịp điệu nhạc Vectơ đặc trưng nhịp điệu cung cấp nhiều thơng tin có ích đặc điểm thể loại nhạc Hầu hết hệ thống dị tìm nhịp điệu nhạc cung cấp thuật toán xác định nhịp điệu nhạc cường độ chúng Bên cạnh đó, chúng cịn cho biết mối liên hệ nhịp nhạc Trong báo này, sử dụng phương pháp xác định tập đặc trưng nhịp điệu nhạc đề xuất George Tzanetakis et al [15] việc phân loại nhạc theo thể loại Phương pháp dựa việc dị tìm chu kỳ (đơn vị: bpm - số nhịp/phút) có biên độ lớn tín hiệu Tín hiệu audio X chia nhỏ thành tín hiệu thành phần Xi cửa sổ phân tích có kích thước 65536 mẫu với tần số lấy mẫu (sampling rate) 22050 Hz tương ứng xấp xỉ 3s Sau đó, thuật tốn xác định nhịp điệu nhạc áp dụng Xi biểu diễn Hình Xi DWT Các tín hiệu thành phần tương ứng băng tần khác EE EE EE EE EE EE FWR + LPF AR DS MR BH Hình Sơ đồ khối xác định Histogram nhịp điệu nhạc Trước tiên, tín hiệu Xi phân tích thành tín hiệu thành phần (yhigh ylow) tương ứng với băng tần khác dựa vào phép biến đổi Wavelet rời rạc (DWT) Tiếp theo, q trình phân tích thực băng tần cách áp dụng bước Envelope Extraction (EE) gồm: Full wave rectification (FWR), low pass filtering (LPF), downsampling (DS) Mean Removal (MR) Sau đó, chúng tổng hợp hàm tự tương quan (AR) xác định Cuối cùng, ba đỉnh cao (có biên độ lớn nhất) hàm tự tương quan tương ứng với chu kỳ khác tín hiệu audio chọn để đưa vào biểu đồ nhịp điệu (Beat Histogram - BH) Trong đó, trục hoành BH biểu diễn số nhịp/phút (đơn vị bpm) trục tung biểu diễn cường độ nhịp (Beat strength) Sau bước phân tích EE băng tần để rút trích đặc trưng nhịp điệu: Full Wave Rectification (FWR): y[n] = abs(x[n]) Low Pass Filter (LPF): Bộ lọc với  = 0.99: y[n] = (1- ) x[n] –  y[n - 1] Downsampling (DS) hệ số k (10) (11) (chọn k = 16 cài đặt hệ thống này): y[n] = x[kn] Mean Removal (MR) / Normalization: y[n] = x[n] – E[x[n]] Autocorrelation (AR): (9) y[k ]  N  x[n]x[n  k ] n (12) (13) PHÂN LOẠI NHẠC THEO THỂ LOẠI DÙNG PHÉP BIẾN ĐỔI WAVELET RỜI RẠC 526 Quá trình xác định nhịp điệu nhạc tín hiệu audio áp dụng lặp lặp lại tín hiệu thành phần Xi tích lũy vào biểu đồ nhịp điệu BH Tập đỉnh cao hàm tự tương quan tạo nên biểu đồ nhịp điệu nhạc sử dụng làm sở cho việc xác định đặc trưng nhịp điệu Trong đó, đỉnh cao BH tương ứng với chu kỳ khác tín hiệu audio nhịp nhạc Xác định đặc trưng nhịp điệu: Dựa vào BH, đặc trưng nhịp điệu: nhịp chính, nhịp phụ, cường độ,… xác định để cung cấp thơng tin có ích cho việc phân loại nhạc theo thể loại Gọi Đ1: đỉnh cao Đ2: đỉnh cao thứ nhì BH Vectơ đặc trưng nhịp điệu vectơ chiều gồm đặc trưng: A1, A2: Đặc trưng độ đo khác nhịp so với nhịp lại tín hiệu Nó xác định tỉ số biên độ đỉnh Đ1 Đ2 với tổng biên độ tất đỉnh BH RA: tỷ số biên độ đỉnh Đ2 với biên độ đỉnh Đ1 Đặc trưng biểu diễn mối quan hệ nhịp nhịp phụ P1, P2: Chu kỳ đỉnh Đ1 Đ2 tính số nhịp phút (đơn vị tính: bpm) SUM: Tổng biên độ đỉnh BH Đặc trưng cho biết độ mạnh nhịp nhạc 3.3 Đặc trưng cao độ Cao độ (pitch) đại lượng tỉ lệ nghịch với tần số tín hiệu audio liên quan đến đặc trưng cảm thụ âm người Mặc dù việc phân loại nhạc theo thể loại khơng thể dựa hồn tồn vào đặc trưng liên quan đến cao độ, cung cấp thơng tin có ích cho việc phân loại Chẳng hạn, nhạc Jazz Classical thường có mức độ thay đổi cao độ nhiều so với nhạc Rock Pop Ngược lại, biểu đồ cao độ nhạc Pop Rock có số đỉnh trội (có biên độ lớn) đỉnh cao so với biểu đồ cao độ nhạc Jazz Classical Hiện nay, nhiều nghiên cứu đưa thuật toán phương thức ước lượng cao độ Các thuật toán ước lượng hầu hết dựa vào phương pháp tự tương quan biến thể Trong nghiên cứu chúng tơi, tập đặc trưng cao độ rút trích từ tín hiệu audio dựa thuật tốn dị tìm cao độ đề xuất Tolonen Karjalainen [16] Để xác định đặc trưng cao độ, tín hiệu audio X chia nhỏ thành tín hiệu thành phần Xi cửa sổ phân tích có kích thước 512 mẫu với tần số lấy mẫu 22050 Hz (xấp xỉ 23ms) Các bước rút trích đặc trưng cao độ áp dụng Xi biểu diễn Hình Tín hiệu audio Xi Highpass 1KHz Lowpass 1KHz HWR Lowpass filtering HWR xhigh xlow ACFhigh  SACF ACFlow Hình Sơ đồ rút trích đặc trưng cao độ Trong thuật tốn này, tín hiệu audio Xi phân tích thành băng tần 1000 Hz kèm theo biên độ rút trích băng tần Việc xử lý tín hiệu thành phần thực HWR (Half wave rectification) lọc Lowpass băng tần cao Sau đó, hàm tự tương quan tương ứng với tín hiệu thành phần (xhigh xlow) xác định tương tự với phương pháp dị tìm nhịp điệu Kết hai hàm tự tương quan ACFhigh ACFlow tạo Hai hàm tổng hợp lại tạo thành hàm tự tương quan tổng hợp SACF (Summary autocorrelation function) Ba đỉnh cao (có biên độ lớn nhất) hàm SACF chọn để đưa vào biểu đồ cao độ (Pitch Histogram - PH) Quá trình áp dụng lặp lặp lại tín hiệu thành phần Xi tích lũy vào biểu đồ cao độ PH Tập hợp ba đỉnh cao SACF tạo thành PH tín hiệu audio Trong đó, đỉnh cao SACF tương ứng với cao độ đoạn âm Từ biểu đồ cao độ PH, hai kiểu biểu đồ cao độ tạo ra: UPH (Unfolded Pitch Histogram) chứa thông tin pitch range FPH (Folded Pitch Histogram) chứa thơng tin pitch class hồ âm nhạc Chi tiết phương pháp tạo UPH FPH mô tả [16] Xác định đặc trưng cao độ: Dựa vào UPH FPH, đặc trưng cao độ xác định để cung cấp thơng tin có ích cho việc phân loại nhạc theo thể loại Gọi Đ1_U, Đ2_U: đỉnh cao nhì tương ứng UPH; Đ1_F, Đ2_F: đỉnh cao nhì tương ứng FPH Vectơ đặc trưng cao độ vectơ chiều gồm đặc trưng: FA0: Biên độ Đ1_F tương ứng với pitch class cao nhạc (tương ứng với âm chủ) UP0: Chu kỳ Đ1_U Đặc trưng tương ứng với vùng bát độ pitch cao nhạc FP0: Chu kỳ Đ1_F Đặc trưng tương ứng với pitch class nhạc IPO1: Quãng cao độ đỉnh Đ1_F Đ2_F FAVG: Trung bình biên độ pitch FPH Đặc trưng biên độ trung bình pitch Phan Anh Cang, Phan Thượng Cang 527 IV XÂY DỰNG HỆ THỐNG PHÂN LOẠI NHẠC THEO THỂ LOẠI 4.1 Tập liệu dùng cho huấn luyện kiểm tra Trong nghiên cứu này, sử dụng nguồn liệu cho huấn luyện kiểm tra sưu tập nhạc GTZAN [15] gồm 10 thể loại nhạc sử dụng phổ biến sưu tập nhạc tham khảo chuẩn cho nghiên cứu phân loại nhạc theo thể loại Dựa cấu trúc phân loại âm sưu tập nhạc GTZAN, bốn thể loại nhạc Classical, Rock, Jazz, Pop chọn ngẫu nhiên để minh hoạ cho hệ thống phân loại nhạc theo thể loại Trong phương pháp chúng tôi, nguồn liệu chia thành tập liệu: huấn luyện kiểm tra Tập file audio huấn luyện sử dụng để huấn luyện cho phân loại KNN để đưa định cho hệ thống phân loại nhạc tập file audio kiểm tra sử dụng để đánh giá hiệu phương pháp đề xuất Các file chọn ngẫu nhiên từ sưu tập GTZAN Mỗi file audio có độ dài 30s với tần số 22050 Hz Mono 16-bit định dạng wav Số file audio sử dụng tập huấn luyện kiểm tra tương ứng thể loại trình bày Bảng Bảng Số lượng tập tin audio dùng cho huấn luyện kiểm tra STT Số lượng tập tin audio Huấn luyện Kiểm tra 150 197 58 74 81 104 90 93 379 468 Tên thể loại Classical Rock Jazz Pop CỘNG 4.2 Mô hình tổng quát hệ thống phân loại nhạc theo thể loại Chúng đề xuất hệ thống phân loại nhạc theo thể loại gồm pha: rút trích đặc trưng huấn luyện phân loại Kết sau rút trích đặc trưng tín hiệu audio tập gồm đặc trưng âm sắc, nhịp điệu, cao độ Chi tiết việc rút trích đặc trưng trình bày phần III Chúng tơi sử dụng phương pháp biến đổi wavelet rời rạc (DWT) để rút trích đặc trưng nhịp điệu Phương pháp phân loại KNN sử dụng để nhận dạng thể loại nhạc (trình bày chi tiết phần 2.2) Quá trình huấn luyện bao gồm việc sử dụng vectơ đặc trưng gán nhãn thể loại để huấn luyện cho phân loại KNN Từ đó, phân loại gán nhãn thể loại cho vectơ đặc trưng cách tự động Mơ hình tổng qt hệ thống phân loại nhạc theo thể loại minh hoạ Hình Huấn luyện Cơ sở liệu nhạc Rút trích đặc trưng Vectơ đặc trưng: - Âm sắc - Nhịp điệu / tiết tấu - Cao độ Kiểm tra Tín hiệu audio Rút trích đặc trưng Vectơ đặc trưng: - Âm sắc - Nhịp điệu / tiết tấu - Cao độ Cơ sở liệu vectơ đặc trưng Huấn luyện, nhận dạng (Bộ phân loại KNN) Thể loại nhạc: - Classical - Rock - Jazz - Pop Hình Mơ hình tổng qt hệ thống phân loại nhạc theo thể loại Tập đặc trưng sử dụng cho hệ thống phân loại nhạc nghiên cứu bao gồm đặc trưng sau đây: - Các đặc trưng âm sắc: Gồm 19 đặc trưng: Trung bình phương sai Centroid, Rolloff, Flux, ZeroCrossing (8), LowEnergy (1); Trung bình phương sai hệ số MFC (10) Các đặc trưng nhịp điệu / tiết tấu: Gồm đặc trưng: A1, A2, RA, P1, P2, SUM xác định từ biểu đồ nhịp điệu Các đặc trưng cao độ: Gồm đặc trưng: FA0, UP0, FP0, IPO1, FAVG xác định từ biểu đồ cao độ 4.3 Ma trận đánh giá độ xác phân loại Việc đánh giá phương pháp đề xuất thực file audio tập liệu kiểm tra Kết phân loại hệ thống trình bày ma trận đánh giá độ xác phân loại Bảng PHÂN LOẠI NHẠC THEO THỂ LOẠI DÙNG PHÉP BIẾN ĐỔI WAVELET RỜI RẠC 528 Bảng Ma trận đánh giá độ xác phân loại Thể loại Thể loại thực tế Classical Rock Jazz Pop Thể loại tiên đoán (Kết tiên đoán từ hệ thống đề xuất) Classical Rock Jazz Pop C1 R J2 P2 C R1 J1 P1 C2 R2 J P3 C3 R3 J3 P Tổng cộng 197 74 104 93 Trong ma trận này, giá trị ma trận số lượng tập tin audio tập liệu kiểm tra Các phần tử ma trận giải thích sau: - C, R, J, P: số tiên đốn file nhạc có nhãn thể loại Classical, Rock, Jazz, Pop tương ứng Ci, Ri, Ji, Pi (i = 1, ,4): số tiên đoán sai file nhạc gán nhãn thể loại Classical, Rock, Jazz, Pop tương ứng Như vậy, dòng tương ứng với thể loại thật file nhạc cột tương ứng với thể loại tiên đoán file nhạc sau hệ thống đề xuất thực phân loại Số tập tin nhạc gán nhãn thể loại nằm đường chéo ma trận (các giá trị in đậm: C, R, J, P) Để đánh giá hiệu phương pháp đề xuất, độ xác phân loại A (Accuracy) sử dụng xác định công thức (14): A(%)  CRJ P (C  R  J  P)   Ci  Ri  Ji  Pi x100% (14) i 1 V KẾT QUẢ Phương pháp thực mơi trường Visual C++ máy tính PC 2.27GHz CPU Core i5 với 3GB Ram để thực cài đặt hệ thống phân loại nhạc theo thể loại Các kết nghiên cứu sử dụng hai tập liệu huấn luyện (379 files audio) kiểm tra (468 files audio) tương ứng với thể loại Classical, Rock, Jazz, Pop Các file chọn ngẫu nhiên từ sưu tập GTZAN Để đánh giá độ xác phân loại phương pháp đề xuất, sử dụng ma trận đánh giá độ xác phân loại Bảng Việc phân loại nhạc thực chủ yếu dựa vào tập đặc trưng rút trích từ tín hiệu audio sau: - Tập đặc trưng (ĐT1): 19 đặc trưng âm sắc - Tập đặc trưng (ĐT2): đặc trưng nhịp điệu - Tập đặc trưng (ĐT3): đặc trưng cao độ Chúng kiểm tra hệ thống với việc rút trích đặc trưng dựa tập đặc trưng kết hợp chúng với sau tìm giá trị tham số k (số láng giềng gần nhất) cho hệ thống đạt hiệu độ xác phân loại cao Sau kết thực nghiệm hệ thống số trường hợp: 5.1 Phân loại dựa tập đặc trưng Chúng thực nghiệm hệ thống với việc phân loại dựa tập đặc trưng Chúng kiểm tra số giá trị tham số k (k = 3,…, 7) Trong đó, với giá trị k = 4, hệ thống cho kết phân loại tốt Vì vậy, chúng tơi chọn trình bày trường hợp Sau kết đánh giá độ xác việc phân loại Bảng Độ xác phân loại dựa tập đặc trưng với giá trị tham số k = Bảng Độ xác phân loại dựa tập đặc trưng với giá trị tham số k = Tập đặc trưng A (%) Tập đặc trưng ĐT1 (âm sắc) ĐT2 (nhịp điệu) ĐT3 (cao độ) 75,2% 63% 59,6% A (%) ĐT1 ĐT2 ĐT1 ĐT3 ĐT2 ĐT3 79,7% 79,5% 63,5% Từ kết trình bày Bảng Bảng 4, nhận xét: Nếu sử dụng tập đặc trưng việc phân loại nhạc theo thể loại từ tín hiệu audio đạt độ xác thấp Kết khó chấp nhận Vì vậy, chúng tơi tiếp tục kiểm tra hệ thống mà sử dụng tập đặc trưng 1, việc phân loại nhạc (tạo nên vectơ đặc trưng 30 chiều) với mong muốn làm tăng độ xác việc phân loại Phan Anh Cang, Phan Thượng Cang 529 5.2 Phân loại dựa tập đặc trưng Bảng Ma trận đánh giá độ xác phân loại Chúng thực nghiệm hệ thống với việc phân loại dùng tập đặc trưng với k = dựa tập đặc trưng: âm sắc, nhịp điệu cao độ Từ Bảng 5, Classical Rock Jazz Pop nhận thấy kết phân loại hệ thống dựa tập đặc trưng với giá trị tham số k = sau: tổng số file audio kiểm Classical 0 195 tra: 468, số trường hợp hệ thống tiên đoán đúng: 391 (A=83,5%), số Rock 58 trường hợp tiên đoán sai: 77 (16,5%) Jazz 23 10 12 59 Pop 79 Chúng kiểm tra số giá trị k khác (k=3,5,6,7) Hình biểu diễn độ xác phân loại sử dụng tập đặc trưng với giá trị k khác nhau, hệ thống cho kết phân loại tốt với k = Nguyên nhân với k = hệ thống phân loại nhạc theo thể loại đề xuất đạt độ xác là: 83,5% Với giá trị khác k, kết độ xác phân loại thấp Chẳng hạn: k = độ xác đạt 80,3% 84 83 82 % 81 80 79 78 83.5 81.4 81.4 80.8 80.3 k Hình Đồ thị biểu diễn độ xác phân loại sử dụng kết hợp tập đặc trưng Hình Đồ thị biểu diễn độ xác trung bình phân loại nhạc dựa vào tập đặc trưng Từ kết thực nghiệm tập liệu kiểm tra biểu diễn Hình cho thấy: hệ thống sử dụng tập đặc trưng âm sắc, nhịp điệu cao độ, việc phân loại nhạc theo thể loại từ tín hiệu audio thực nhanh (thời gian thực trung bình 30,7 giây) số chiều vectơ đặc trưng nhỏ hơn, độ xác việc phân loại thấp (đạt khoảng 60,2% - 74,6%) so với trường hợp phân loại nhạc dựa tập đặc trưng Tương tự, hệ thống phân loại dựa việc kết hợp tập đặc trưng: âm sắc nhịp điệu; âm sắc cao độ; nhịp điệu cao độ cho kết thời gian thực nhanh (trung bình 63,1giây), kết độ xác việc phân loại thấp (đạt 64,1% - 79,8%) so với kết phân loại trường hợp hệ thống sử dụng kết hợp tập đặc trưng với độ xác phân loại trung bình 81,5% thời gian thực trung bình 97,4 giây Vì vậy, việc sử dụng kết hợp tập đặc trưng âm sắc, nhịp điệu, cao độ cần thiết hệ thống phân loại nhạc theo thể loại cho kết phân loại xác Như vậy, phương pháp đề xuất kết hợp tập đặc trưng âm sắc, nhịp điệu cao độ việc phân loại nhạc theo thể loại hệ thống đưa kết phân loại với độ xác cao (trung bình 81,5%) Kết phương pháp đề xuất tốt so với số phương pháp nghiên cứu trước với độ xác trung bình 80% Chẳng hạn, nghiên cứu Marco Grimaldi et al [17] sử dụng 182 file nhạc với thể loại khác để kiểm tra hệ thống cho kết độ xác phân loại 52,75% trường hợp dùng phép biến đổi wavelet rời rạc kỹ thuật phân loại KNN Phương pháp đề xuất có kết tốt so với phương pháp Panagakis et al [18] độ xác phân loại đạt 78,2%, 77,9% 75,01% rút trích tập đặc trưng khác từ sưu tập nhạc GTZAN với phân loại SVM Mặt khác, kết nghiên cứu chúng tơi có độ xác phân loại cao so với phương pháp đề xuất Tao et al [19] độ xác phân loại đạt 78,6% thực tập liệu GTZAN máy học SVM Bên cạnh đó, Chathuranga et al [6] đề xuất phương pháp phân loại nhạc theo thể loại với tiếp cận máy học SVM Kết phân loại đạt độ xác thấp phương pháp đề xuất đạt 78% thực tập liệu GTZAN VI KẾT LUẬN Một phương pháp phân loại nhạc theo thể loại nhanh xác cần thiết hệ thống quản lý số lượng lớn nhạc số Tuy nhiên, công việc không đơn giản thể loại nhạc cịn khái niệm mở, tùy thuộc vào ý kiến chủ quan người Trong nghiên cứu thực nghiệm này, đề xuất sử dụng tập đặc trưng rút trích cơng cụ STFT, DWT phân loại KNN DWT kỹ thuật phân tích tín hiệu, cung cấp cách biểu diễn tín hiệu miền thời gian tần số dạng nén làm cho việc tính tốn nhanh hiệu Nghiên cứu tập trung vào việc phân loại thể loại nhạc: Classical, Rock, Jazz Pop cách sử PHÂN LOẠI NHẠC THEO THỂ LOẠI DÙNG PHÉP BIẾN ĐỔI WAVELET RỜI RẠC 530 dụng kết hợp tập đặc trưng âm sắc, nhịp điệu cao độ tạo nên vectơ đặc trưng 30 chiều Tập liệu sử dụng nghiên cứu lấy từ sưu tập nhạc GTZAN Dựa kết thực nghiệm, phương pháp đề xuất đạt độ xác trung bình 81,5% Kết nghiên cứu cho độ xác phân loại cao số nghiên cứu trước mà đạt độ xác 80% Việc phân loại nhạc theo thể loại thực cách tự động máy tính cho kết xác hồn tồn Nghiên cứu cung cấp sở khoa học cho phát triển hệ thống: truy vấn thông tin nhạc dựa vào nội dung, phát chép quyền nhạc, tìm nhạc có đặc trưng gần giống với đặc trưng mà người sử dụng mong muốn, phân tích nhạc lời hát, phân loại nhạc theo ca sĩ - nhạc sĩ, thích tự động tập tin nhạc với mơ tả, Phương pháp đề xuất áp dụng mở rộng thể loại nhạc khác: Opera, Rap, Blues, Country, Hip Hop,… Ngồi ra, áp dụng cho việc phân loại nhạc truyền thống Việt Nam như: dân ca Bắc bộ, dân ca Nam bộ, Chèo, Bội, Cải lương Hệ thống đề xuất áp dụng với phân loại kết hợp khác như: SVM, Gaussian, mạng Neural,… Chúng dự định thực nghiệm hệ thống đề xuất tập liệu lớn (Big Data); nghiên cứu sử dụng đặc trưng để trích xuất thơng tin âm nhạc có ý nghĩa từ tín hiệu âm Đó hướng nghiên cứu thời gian tới VII TÀI LIỆU THAM KHẢO [1] Anan, Yoko, Hatano, Kohei, Bannai, Hideo, and Takeda, Masayuki, “Music Genre Classification Using Similarity Functions”, Proceedings of the 12th International Society for Music Information Retrieval Conference (Miami (Florida), USA, pp 693-698, 2011 [2] Costa, Y M G., Oliveira, L S., Koericb, A L., and Gouyon, F., “Music genre recognition using spectrograms”, 18th International Conference on Systems, Signals and Image Processing (IWSSIP), pp 1-4, 2011 [3] Jang, Dalwon, Jin, Minho, and Yoo, Chang Dong, “Music genre classification using novel features and a weighted voting method”, Proceedings of International Conference on Multimedia and Expo, Hannover, Germany, pp 1377-1380, 2008 [4] Matsui, Tomoko, Goto, Masataka, Vert, Jean-Philippe, and Uchiyama, Yuji, “Gradient-based musical feature extraction based on scale-invariant feature transform" EUSIPCO, IEEE, pp 724-728, 2011 [5] Mckay, Cory, Burgoyne, John Ashley, Hockman, Jason, Smith, Jordan B.L., Vigliensoni, Gabriel, and Fujinaga, Ichiro, “Evaluating the Genre Classification Performance of Lyrical Features Relative to Audio, Symbolic and Cultural Features”, Proceedings of the 11th International Society for Music Information Retrieval Conference (Utrecht, The Netherlands August 913 2010), pp 213-218, 2010 [6] Chathuranga, Dhanith and Jayaratne, Lakshman, “Automatic Music Genre Classification of Audio Signals with Machine Learning Approaches”, GSTF Journal on Computing (JoC), Vol 3, No 2, pp 1-12, 2013 [7] Rini Wongso, Diaz D Santika, “Automatic music genre classification using dual tree complex wavelet transform and support vector machine”, Journal of Theoretical and Applied Information Technology, Vol 63, No 1, pp 61-68, 2014 [8] Mallat, S G., “A Theory for Multiresolution Signal Decomposition: The Wavelet Representation”, IEEE Trans Pattern Anal Mach Intell., Vol 11, pp 674-693, 1989 [9] Daubechies, Ingrid, “Orthonormal bases of compactly supported wavelets”, Journal of Communications on Pure and Applied Mathematics, Vol 41, No 7, pp 909-996, 1988 [10] Altman, N S., “An Introduction to Kernel and Nearest-Neighbor Nonparametric Regression”, the American Statistician, Vol 46, No 3, pp 175-185, 1992 [11] Theodoridis, Sergios and Koutroumbas, Konstantinos, “Pattern Recognition”, Third Edition, Academic Press, Inc., Orlando, FL, USA, 2006 [12] Logan, Beth “Mel Frequency Cepstral Coefficients for Music Modeling”, Proceedings of the 1st International Conference on Music Information Retrieval (Plymouth (Massachusetts), USA October 23, 2000 [13] Li, Tao and Tzanetakis, G , “Factors in automatic musical genre classification of audio signals”, Applications of Signal Processing to Audio and Acoustics, IEEE Workshop, pp 143-146, 2003 [14] Cataltepe, Zehra, Yaslan, Yusuf, and Sonmez, Abdullah, “Music Genre Classification Using MIDI and Audio Features”, EURASIP Journal on Advances in Signal Processing, Vol 1, pp 1-8, 2007 [15] Tzanetakis, George, Essl, Georg, and Cook, Perry, “Automatic Musical Genre Classification of Audio Signals”, Proceedings of the 2nd Annual International Symposium on Music Information Retrieval (Bloomington (Indiana), USA, pp 205-210, 2001 [16] Tolonen, Tero and Karjalainen, Matti “A computationally efficient multipitch analysis model”, IEEE Trans Speech and Audio Processing, Vol 8, No 6, pp 708-716, 2000 [17] Grimaldi, Marco, Kokaram, Anil, and Cunningham, Pádraig, “Classifying music by genre using a discrete wavelet transform and a round-robin ensemble”, Computer Science Dept, Trinity College Dublin, Ireland, 2003 [18] Panagakis, Ioannis, Benetos, Emmanouil, and Kotropoulos, Constantine, “Music Genre Classification: A Multilinear Approach”, Proceedings of the 9th International Conference on Music Information Retrieval, pp 583-588, 2008 Phan Anh Cang, Phan Thượng Cang 531 [19] Ran Tao, Zhenyang Li, Ye Ji, “Music genre classification using temporal information and support vector machine”, ASCI Conference, Vol 77, 2010 MUSIC CLASSIFICATION BY GENRE USING DISCRETE WAVELET TRANSFORM Phan Anh Cang, Phan Thượng Cang ABSTRACT— As the demand for multimedia grows, the development of musical genre classification systems including information about musical genre is of increasing concern However, due to the collection of audio files from various sources, the musical genre classification based on information recorded on file may encounter limitations To automate searching, organizing and classifying a huge number of audio files based on their genre is a challenging task In this paper, we present an approach to identifying musical genres based on their content including three feature sets for representing timbral texture, rhythmic content and pitch content We apply the discrete wavelet transform for decomposing audio signals to determine their rhythmical features Our method is applied to identify four musical genres including Classical, Rock, Jazz and Pop It can be extended to applications related to the different musical genres or the music information retrieval systems, the music copyright matching systems,… We present experimental results that show that our approach is effective in identifying the musical genre of the audio file with acceptable level of confidence ...PHÂN LOẠI NHẠC THEO THỂ LOẠI DÙNG PHÉP BIẾN ĐỔI WAVELET RỜI RẠC 522 loại bốn thể loại nhạc: Pop, Classical, Jazz Rock cách sử dụng số thống... thống phân loại nhạc theo thể loại cho kết phân loại xác Như vậy, phương pháp đề xuất kết hợp tập đặc trưng âm sắc, nhịp điệu cao độ việc phân loại nhạc theo thể loại hệ thống đưa kết phân loại. .. phân loại Việc đánh giá phương pháp đề xuất thực file audio tập liệu kiểm tra Kết phân loại hệ thống trình bày ma trận đánh giá độ xác phân loại Bảng PHÂN LOẠI NHẠC THEO THỂ LOẠI DÙNG PHÉP BIẾN

Ngày đăng: 26/11/2020, 00:13