Trong bài báo này, chúng tôi đề xuất một hệ thống phân loại nhạc theo thể loại sử dụng các phương pháp rút trích tập các đặc trưng của tín hiệu audio bao gồm âm sắc (timbral texture), [r]
(1)PHÂN LOẠI NHẠC THEO THỂ LOẠI DÙNG PHÉP BIẾN ĐỔI WAVELET RỜI RẠC
Phan Anh Cang 1, Phan Thượng Cang2
Khoa Công Nghệ Thông Tin, Trường Đại học Sư Phạm Kỹ Thuật Vĩnh Long Khoa Công Nghệ Thông Tin, Trường Đại học Cần Thơ
cangpa@vlute.edu.vn, ptcang@cit.ctu.edu.vn
TĨM TẮT— Cùng với bùng nổ cơng nghệ thông tin gia tăng nhu cầu sưu tập nhạc số cá nhân hay tổ chức, việc phân loại nhạc để dễ dàng quản lý nhu cầu tất yếu Tuy nhiên, việc sưu tầm từ nhiều nguồn khác nên việc phân loại dựa thông tin ghi tập tin lưu trữ gặp nhiều hạn chế Với số lượng đồ sộ nhạc việc phân loại nhạc thách thức người nghe nhạc hệ thống lưu trữ âm nhạc Điều làm cho nhu cầu xây dựng hệ thống phân loại nhạc tự động trở nên cần thiết Trong báo này, đề xuất hệ thống phân loại nhạc theo thể loại sử dụng phương pháp rút trích tập đặc trưng tín hiệu audio bao gồm âm sắc (timbral texture), nhịp điệu (rhythmic content) cao độ (pitch) phục vụ cho việc phân loại nhạc tự động theo thể loại Trong đó, phép biến đổi wavelet rời rạc để phân tích tín hiệu audio thành băng tần dùng cho việc xác định đặc trưng nhịp điệu Nghiên cứu thực minh hoạ bốn thể loại Classical, Rock, Jazz Pop Nghiên cứu áp dụng mở rộng thể loại nhạc khác hoặc xây dựng hệ thống truy vấn thông tin nhạc dựa vào nội dung, kiểm tra việc chép quyền nhạc,
Từ khóa— Phân loại nhạc, wavelet rời rạc, tín hiệu âm nhạc, rút trích đặc trưng tín hiệu audio I. GIỚI THIỆU
Trong năm gần đây, với phát triển công nghệ thông tin, số lượng nhạc hình thức liệu audio kho liệu lớn, Internet, ngày gia tăng nhanh chóng Điều làm cho việc sở hữu nhạc trở nên dễ dàng hết, kéo theo gia tăng nhu cầu sưu tập nhạc số cá nhân hay tổ chức Hiện nay, hầu hết hệ thống lưu trữ nhạc số xếp nhạc theo tên nhạc sĩ theo tên hát người nghe nhạc quan tâm đến thể loại nhạc Điều nảy sinh nhu cầu phân loại nhạc tự động theo thể loại hệ thống lưu trữ nhạc số phép người nghe nhạc tìm kiếm nhạc theo yêu cầu Tuy nhiên, với số lượng lớn nhạc số sưu tầm được, việc phân loại chúng để dễ dàng quản lý trở thành thách thức hệ thống phân loại nhạc tự động Điều việc sưu tầm nhạc thực từ nhiều nguồn nên có nhiều thơng tin khác cho nhạc tải Bên cạnh đó, người sưu tầm tự nghe lại nhạc tự phân loại chúng thay dựa vào thơng tin có sẵn lưu trữ tập tin nhạc Theo cách này, độ xác phân loại nhạc tùy thuộc vào khả hiểu biết âm nhạc người phân loại Điều cho thấy, việc phân loại nhạc với phương pháp truyền thống cịn nhiều hạn chế độ xác khơng khả thi với số lượng lớn nhạc số Do đó, hệ thống phân loại nhạc tự động cần thiết hệ thống lưu trữ nhạc số, phát chép quyền, tìm kiếm thơng tin nhạc Internet, chúng cung cấp sở khoa học cho việc phân tích tín hiệu nhạc dựa vào nội dung
(2)loại bốn thể loại nhạc: Pop, Classical, Jazz Rock cách sử dụng số thống kê trung bình, độ lệch chuẩn, phương sai, entropy đặc trưng tín hiệu nhạc
Trong báo này, giới thiệu thuật toán phân loại nhạc tự động theo thể loại dựa phương pháp nhận dạng K-NN (K-Nearest Neighbor) ba tập đặc trưng rút trích từ tín hiệu nhạc: âm sắc (timbral texture), nhịp điệu (rhythmic content) cao độ (pitch) Chúng sử dụng phép biến đổi wavelet rời rạc (DWT) để phân tích tín hiệu audio dùng cho việc xác định đặc trưng nhịp điệu Nghiên cứu thực minh hoạ bốn thể loại Classical, Rock, Jazz Pop Nó áp dụng mở rộng thể loại nhạc khác xây dựng hệ thống truy vấn thông tin nhạc dựa vào nội dung, kiểm tra việc chép quyền nhạc, Chúng trình bày việc lựa chọn đặc trưng phù hợp chúng ảnh hưởng đáng kể đến độ xác phân loại
II.CÁC CÔNG VIỆC NGHIÊN CỨU LIÊN QUAN 2.1.Phép biển đổi wavelet rời rạc
Phép biến đổi Fourier thường dùng cho phân tích tín hiệu audio Tuy nhiên, có hạn chế ta biết thời điểm xuất thành phần tần số Để khắc phục nhược điểm này, nhà khoa học sử dụng biến đổi STFT (Short time Fourier transform) Theo đó, tín hiệu chia thành khoảng nhỏ biến đổi Fourier khoảng Phương pháp có hạn chế việc chọn độ rộng khoảng tín hiệu phân chia cho phù hợp độ rộng nhỏ độ phân giải thời gian tốt phân giải tần số ngược lại Để khắc phục phương pháp trên, biến đổi wavelet đời Biến đổi wavelet (WT) thực sau: tín hiệu nhân với hàm Wavelet (tương tự nhân với hàm cửa sổ biến đổi STFT), sau thực phân tích riêng rẽ cho khoảng tín hiệu khác miền thời gian tần số khác
Phép biến đổi wavelet rời rạc (DWT) trường hợp đặc biệt WT Nó cung cấp cách biểu diễn tín hiệu dạng nén miền thời gian-tần số giúp cho việc tính tốn cách nhanh chóng hiệu DWT thực phân tích đa phân giải tín hiệu audio x thành thành phần: thành phần tín hiệu thơ A (coarse approximation) tương ứng với thành phần tần số thấp ylow thành phần tín hiệu chi tiết D (detail) tương ứng với thành phần tần số cao yhigh [8] Sau đó, thành phần tín hiệu thơ tiếp tục phân tích tương tự Như vậy, tín hiệu biểu diễn dạng tổng thành phần tín hiệu thơ thành phần tín hiệu chi tiết Q trình phân tích thực lọc băng tần cao thấp tín hiệu x biểu diễn Hình định nghĩa công thức (1)
n low
n high
n k h n x k y
n k g n x k y
] 2 [ ] [ ] [
] 2 [ ] [ ] [
(1)
Trong đó: yhigh[k]: thành phần tần số cao; ylow[k]: thành phần tần số thấp; x[n]: tín hiệu audio; g[n]: lọc băng tần cao; h[n]: lọc băng tần thấp
Hình 1 DWT mức tín hiệu x
Tín hiệu x[n] xác định cách tổng hợp tất hệ số yhigh ylow mức phân tích cuối Trong báo này, chúng tơi sử dụng DWT việc phân tích tín hiệu audio theo miền tần số để rút trích đặc trưng nhịp điệu sử dụng lọc băng tần DAUB4 [9] đề xuất Daubechies
2.2.Phương pháp phân loại KNN
(3)Phương pháp K-NN xem mẫu (vectơ đặc trưng) điểm biểu diễn không gian đặc trưng n chiều (Hình 2) Khoảng cách mẫu cần phân loại x k mẫu láng giềng y d(x, y) xác định dựa khoảng cách không gian Thông thường, người ta dùng khoảng cách Euclide để xác định khoảng cách mẫu không gian đặc trưng xác định công thức (2)
n
i
i
i y
x y
x y x d
1
2 ) ( )
,
( (2)
Hình 2.Mơ hình phân lớp K-NN
Xác suất mẫu x thuộc vào thể loại ci xác định công thức (3):
K y
y c yc K y
y
w w
i
, i| x )
p(c (3)
Trong đó: wy= (1/d(x,y)); K tập hợp k mẫu láng giềng gần x nhất; yc thể loại y; ci thể loại thứ i
Thuật toán K-NN:
1 Xác định giá trị tham số k (số láng giềng gần nhất)
2 Tính khoảng cách mẫu cần phân loại x với mẫu tập huấn luyện (sử dụng công thức (2)) Xác định k láng giềng gần với x nhãn thể loại chúng
4 Xác định nhãn thể loại x: x gán nhãn thể loại ci p(ci | x) lớn (sử dụng công thức (3)) III RÚT TRÍCH ĐẶC TRƯNG TÍN HIỆU AUDIO
Trên thực tế, tất đặc trưng tín hiệu audio đưa trực tiếp vào mơ hình phân loại làm giảm rõ rệt tốc độ huấn luyện phân loại Rút trích đặc trưng kỹ thuật tiền xử lý tín hiệu nhạc sử dụng phổ biến việc phân loại Q trình rút trích khử nhiễu tín hiệu chọn thơng tin cần thiết cho việc phân loại nhạc Ngoài ra, việc chọn lọc đặc trưng dùng để tạo tập đặc trưng từ liệu đầu vào nhằm làm tăng hiệu mặt thời gian việc nhận dạng tiến trình tự động hố dùng để giảm số chiều liệu cho liệu đầu vào chuyển đổi sang dạng đơn giản nhỏ trước đưa vào mơ hình phân loại
Hình 3. Sơ đồ rút trích đặc trưng từ tín hiệu nhạc
Nhiều nghiên cứu đề xuất đặc trưng tín hiệu audio để nhận dạng, phân loại hệ thống nhận dạng, phân loại khác Mỗi nghiên cứu đưa số đặc trưng tín hiệu audio phương thức sử dụng để phân loại Các đặc trưng tín hiệu audio thường chia làm hai nhóm chính: đặc trưng miền thời gian – tần số đặc trưng cảm thụ âm người (nhịp điệu, cao độ) [6] Trong báo này, xây dựng hệ thống phân loại nhạc dựa ba tập đặc trưng sau:
- Các đặc trưng âm sắc (Timbral Texture Features) - Các đặc trưng nhịp điệu (Rhythmic Content Features) - Các đặc trưng cao độ (Pitch Content Features) 3.1.Đặc trưng âm sắc
Tập đặc trưng âm sắc sử dụng để biểu diễn đặc trưng âm nhạc liên quan đến tiết tấu, âm sắc nhạc cụ Vectơ đặc trưng âm sắc sử dụng hệ thống phân loại bao gồm 19 chiều với đặc trưng: (Trung bình độ lệch chuẩn Spectral Centroid, Rolloff, Flux, ZeroCrossing, LowEnergy, Trung bình độ lệch chuẩn hệ số MFCC đầu tiên) Trung bình độ lệch chuẩn đặc trưng xác định dựa STFT với cửa sổ phân tích chia tín hiệu đầu vào có độ dài 1s thành đoạn nhỏ khoảng 20ms Sau đặc trưng xác định cửa sổ phân tích:
x y
(4)a) Đặc trưng 1: Spectral Centroid
Spectral Centroid độ đo liên quan hình dáng phổ tần số Nó xác định điểm cân phổ tần số Giá trị Centroid cao tương ứng với phổ có độ sáng chói chứa nhiều tần số cao Spectral Centroid xác định công thức (4):
N n t N n t t n M n n M C 1 ] [ * ] [ (4)
Trong đó: Mt [n] biên độ tần số thứ n phổ tần số tương ứng với cửa sổ t b) Đặc trưng 2: Rolloff
Rolloff độ đo liên quan hình dáng phổ tần số Điểm Rolloff phổ tần số (Rt) định nghĩa tần số biên mà 85% phân bố lượng tập trung phổ điểm Công thức (5) xác định Rt - điểm Rolloff phổ tần số
] [ 85 . 0 ] [ 1 n M n M N n t R n t t (5) c) Đặc trưng 3: Flux
Flux xem độ biến thiên phổ, cho biết thay đổi biên độ tần số phân phối quang phổ hai cửa sổ phân tích liên tiếp Nó xác định bình phương hiệu biên độ chuẩn tần số phổ xác định công thức (6)
N n t t
t N n N n
F N i t t t i M n M n N (6)
Với Nt[n] Nt-1[n] biên độ chuẩn tần số thứ n phổ tần số cửa sổ t t-1 tương ứng d) Đặc trưng 4: Zero-crossings
Zero Crossings cho biết mức độ ồn (noisiness) âm tín hiệu Nó xuất mẫu kề tín hiệu khác dấu Nó xác định số lần tín hiệu audio vượt qua trục zero đơn vị thời gian tính công thức (7):
N n
t sign xn sign x n
Z | ]) 1 [ ( ]) [ ( | 2
1 ;
0 0 0 1 n x n x n x sign (7)
x[n] tín hiệu miền thời gian cửa sổ t e) Đặc trưng 4: Low-Energy
Khác với đặc trưng trên, đặc trưng Low-Energy xác định tồn tín hiệu miền thời gian Nó tỉ lệ phần trăm cửa sổ phân tích có RMS (Root-Mean-Square) lượng thấp RMS trung bình lượng tín hiệu cửa sổ phân tích Trong đó, RMS lượng tín hiệu cửa sổ t xác định công thức (8):
N i M RMS N i t t ) ] [ ( (8)
f) Đặc trưng 6: Các hệ số MFCC (Mel-Frequency Cepstral Coefficients)
MFCC tập đặc trưng dùng phổ biến hệ thống nhận dạng giọng nói, truy tìm thơng tin nhạc,… Nó cung cấp cách biểu diễn nén tín hiệu audio dạng phổ cho hầu hết lượng tín hiệu tập trung vào hệ số Hình mơ tả bước thực rút trích đặc trưng MFCC từ tín hiệu audio Chi tiết phương pháp rút trích đặc trưng MFCC mơ tả [12]
Hình 4. Sơ đồ rút trích đặc trưng MFCC Chia nhỏ
thành cửa sổ
Tín hiệu audio Biến đổi
sang thang Mel
MFCC
(13 hệ số) Phân tích
Cepstral Fast Fourier
(5)Kết thu tập đặc trưng MFCC gồm 13 hệ số Tuy nhiên, nhiều nghiên cứu [13] [14] cho thấy hệ số MFCC cung cấp đầy đủ thông tin cho việc phân loại nhạc theo thể loại Vì vậy, để giảm số chiều cho vectơ đặc trưng, chọn hệ số MFCC cho hệ thống phân loại nhạc theo thể loại 3.2.Đặc trưng nhịp điệu nhạc
Vectơ đặc trưng nhịp điệu cung cấp nhiều thơng tin có ích đặc điểm thể loại nhạc Hầu hết hệ thống dị tìm nhịp điệu nhạc cung cấp thuật tốn xác định nhịp điệu nhạc cường độ chúng Bên cạnh đó, chúng cịn cho biết mối liên hệ nhịp nhạc Trong báo này, sử dụng phương pháp xác định tập đặc trưng nhịp điệu nhạc đề xuất George Tzanetakis et al [15] việc phân loại nhạc theo thể loại Phương pháp dựa việc dị tìm chu kỳ (đơn vị: bpm - số nhịp/phút) có biên độ lớn tín hiệu Tín hiệu audio X chia nhỏ thành tín hiệu thành phần Xi cửa sổ phân tích có kích thước 65536 mẫu với tần số lấy mẫu (sampling rate) 22050 Hz tương ứng xấp xỉ 3s Sau đó, thuật toán xác định nhịp điệu nhạc áp dụng Xi biểu diễn Hình
Hình 5 Sơ đồ khối xác định Histogram nhịp điệu nhạc
Trước tiên, tín hiệu Xi phân tích thành tín hiệu thành phần (yhigh ylow) tương ứng với băng tần khác dựa vào phép biến đổi Wavelet rời rạc (DWT) Tiếp theo, q trình phân tích thực băng tần cách áp dụng bước Envelope Extraction (EE) gồm: Full wave rectification (FWR), low pass filtering (LPF), downsampling (DS) Mean Removal (MR) Sau đó, chúng tổng hợp hàm tự tương quan (AR) xác định Cuối cùng, ba đỉnh cao (có biên độ lớn nhất) hàm tự tương quan tương ứng với chu kỳ khác tín hiệu audio chọn để đưa vào biểu đồ nhịp điệu (Beat Histogram - BH) Trong đó, trục hồnh BH biểu diễn số nhịp/phút (đơn vị bpm) trục tung biểu diễn cường độ nhịp (Beat strength) Sau bước phân tích EE băng tần để rút trích đặc trưng nhịp điệu:
1 Full Wave Rectification (FWR): y[n] = abs(x[n]) (9)
2 Low Pass Filter (LPF): Bộ lọc với = 0.99: y[n] = (1- ) x[n] – y[n - 1] (10) Downsampling (DS) hệ số k
(chọn k = 16 cài đặt hệ thống này): y[n] = x[kn]
(11)
4 Mean Removal (MR) / Normalization: y[n] = x[n] – E[x[n]] (12)
5 Autocorrelation (AR): n
k n x n x N k
y[ ] [ ] [ ] (13)
FWR
LPF
MR DS DWT
EE EE EE EE EE
+
AR
BH Xi
Các tín hiệu thành phần tương ứng băng tần khác
(6)Quá trình xác định nhịp điệu nhạc tín hiệu audio áp dụng lặp lặp lại tín hiệu thành phần Xi tích lũy vào biểu đồ nhịp điệu BH Tập đỉnh cao hàm tự tương quan tạo nên biểu đồ nhịp điệu nhạc sử dụng làm sở cho việc xác định đặc trưng nhịp điệu Trong đó, đỉnh cao BH tương ứng với chu kỳ khác tín hiệu audio nhịp nhạc
Xác định đặc trưng nhịp điệu:
Dựa vào BH, đặc trưng nhịp điệu: nhịp chính, nhịp phụ, cường độ,… xác định để cung cấp thơng tin có ích cho việc phân loại nhạc theo thể loại Gọi Đ1: đỉnh cao Đ2: đỉnh cao thứ nhì BH Vectơ đặc trưng nhịp điệu vectơ chiều gồm đặc trưng:
1 A1, A2: Đặc trưng độ đo khác nhịp so với nhịp cịn lại tín hiệu Nó xác định tỉ số biên độ đỉnh Đ1 Đ2 với tổng biên độ tất đỉnh BH
2 RA: tỷ số biên độ đỉnh Đ2 với biên độ đỉnh Đ1 Đặc trưng biểu diễn mối quan hệ nhịp nhịp phụ
3 P1, P2: Chu kỳ đỉnh Đ1 Đ2 tính số nhịp phút (đơn vị tính: bpm) SUM: Tổng biên độ đỉnh BH Đặc trưng cho biết độ mạnh nhịp nhạc 3.3.Đặc trưng cao độ
Cao độ (pitch) đại lượng tỉ lệ nghịch với tần số tín hiệu audio liên quan đến đặc trưng cảm thụ âm người Mặc dù việc phân loại nhạc theo thể loại khơng thể dựa hồn tồn vào đặc trưng liên quan đến cao độ, cung cấp thơng tin có ích cho việc phân loại Chẳng hạn, nhạc Jazz Classical thường có mức độ thay đổi cao độ nhiều so với nhạc Rock Pop Ngược lại, biểu đồ cao độ nhạc Pop Rock có số đỉnh trội (có biên độ lớn) đỉnh cao so với biểu đồ cao độ nhạc Jazz Classical Hiện nay, nhiều nghiên cứu đưa thuật toán phương thức ước lượng cao độ Các thuật toán ước lượng hầu hết dựa vào phương pháp tự tương quan biến thể Trong nghiên cứu chúng tôi, tập đặc trưng cao độ rút trích từ tín hiệu audio dựa thuật tốn dị tìm cao độ đề xuất Tolonen Karjalainen [16] Để xác định đặc trưng cao độ, tín hiệu audio X chia nhỏ thành tín hiệu thành phần Xi cửa sổ phân tích có kích thước 512 mẫu với tần số lấy mẫu 22050 Hz (xấp xỉ 23ms) Các bước rút trích đặc trưng cao độ áp dụng Xi biểu diễn Hình
Hình 6 Sơ đồ rút trích đặc trưng cao độ
Trong thuật tốn này, tín hiệu audio Xi phân tích thành băng tần 1000 Hz kèm theo biên độ rút trích băng tần Việc xử lý tín hiệu thành phần thực HWR (Half wave rectification) lọc Lowpass băng tần cao Sau đó, hàm tự tương quan tương ứng với tín hiệu thành phần (xhigh xlow) xác định tương tự với phương pháp dị tìm nhịp điệu Kết hai hàm tự tương quan ACFhigh ACFlow tạo Hai hàm tổng hợp lại tạo thành hàm tự tương quan tổng hợp SACF (Summary autocorrelation function) Ba đỉnh cao (có biên độ lớn nhất) hàm SACF chọn để đưa vào biểu đồ cao độ (Pitch Histogram - PH) Quá trình áp dụng lặp lặp lại tín hiệu thành phần Xi tích lũy vào biểu đồ cao độ PH Tập hợp ba đỉnh cao SACF tạo thành PH tín hiệu audio Trong đó, đỉnh cao SACF tương ứng với cao độ đoạn âm Từ biểu đồ cao độ PH, hai kiểu biểu đồ cao độ tạo ra: UPH (Unfolded Pitch Histogram) chứa thông tin pitch range FPH (Folded Pitch Histogram) chứa thơng tin pitch class hồ âm nhạc Chi tiết phương pháp tạo UPH FPH mô tả [16]
Xác định đặc trưng cao độ:
Dựa vào UPH FPH, đặc trưng cao độ xác định để cung cấp thơng tin có ích cho việc phân loại nhạc theo thể loại Gọi Đ1_U, Đ2_U: đỉnh cao nhì tương ứng UPH; Đ1_F, Đ2_F: đỉnh cao nhì tương ứng FPH Vectơ đặc trưng cao độ vectơ chiều gồm đặc trưng:
1 FA0: Biên độ Đ1_F tương ứng với pitch class cao nhạc (tương ứng với âm chủ) UP0: Chu kỳ Đ1_U Đặc trưng tương ứng với vùng bát độ pitch cao nhạc FP0: Chu kỳ Đ1_F Đặc trưng tương ứng với pitch class nhạc
4 IPO1: Quãng cao độ đỉnh Đ1_F Đ2_F
5 FAVG: Trung bình biên độ pitch FPH Đặc trưng biên độ trung bình pitch xlow
Highpass 1KHz Lowpass
1KHz
HWR
Lowpass filtering ACFhigh
ACFlow xhigh
Tín hiệu audio
Xi
(7)IV XÂY DỰNG HỆ THỐNG PHÂN LOẠI NHẠC THEO THỂ LOẠI 4.1.Tập liệu dùng cho huấn luyện kiểm tra
Trong nghiên cứu này, sử dụng nguồn liệu cho huấn luyện kiểm tra sưu tập nhạc GTZAN [15] gồm 10 thể loại nhạc sử dụng phổ biến sưu tập nhạc tham khảo chuẩn cho nghiên cứu phân loại nhạc theo thể loại Dựa cấu trúc phân loại âm sưu tập nhạc GTZAN, bốn thể loại nhạc Classical, Rock, Jazz, Pop chọn ngẫu nhiên để minh hoạ cho hệ thống phân loại nhạc theo thể loại
Trong phương pháp chúng tôi, nguồn liệu chia thành tập liệu: huấn luyện kiểm tra Tập file audio huấn luyện sử dụng để huấn luyện cho phân loại KNN để đưa định cho hệ thống phân loại nhạc tập file audio kiểm tra sử dụng để đánh giá hiệu phương pháp đề xuất Các file chọn ngẫu nhiên từ sưu tập GTZAN Mỗi file audio có độ dài 30s với tần số 22050 Hz Mono 16-bit định dạng wav Số file audio sử dụng tập huấn luyện kiểm tra tương ứng thể loại trình bày Bảng
Bảng Số lượng tập tin audio dùng cho huấn luyện kiểm tra
STT Tên thể loại Số lượng tập tin audio
Huấn luyện Kiểm tra
1 Classical 150 197
2 Rock 58 74
3 Jazz 81 104
4 Pop 90 93
CỘNG 379 468
4.2.Mô hình tổng quát hệ thống phân loại nhạc theo thể loại
Chúng đề xuất hệ thống phân loại nhạc theo thể loại gồm pha: rút trích đặc trưng huấn luyện phân loại Kết sau rút trích đặc trưng tín hiệu audio tập gồm đặc trưng âm sắc, nhịp điệu, cao độ Chi tiết việc rút trích đặc trưng trình bày phần III Chúng tơi sử dụng phương pháp biến đổi wavelet rời rạc (DWT) để rút trích đặc trưng nhịp điệu Phương pháp phân loại KNN sử dụng để nhận dạng thể loại nhạc (trình bày chi tiết phần 2.2) Quá trình huấn luyện bao gồm việc sử dụng vectơ đặc trưng gán nhãn thể loại để huấn luyện cho phân loại KNN Từ đó, phân loại gán nhãn thể loại cho vectơ đặc trưng cách tự động Mơ hình tổng qt hệ thống phân loại nhạc theo thể loại minh hoạ Hình
Huấn luyện
Kiểm tra
Hình 7 Mơ hình tổng qt hệ thống phân loại nhạc theo thể loại
Tập đặc trưng sử dụng cho hệ thống phân loại nhạc nghiên cứu bao gồm đặc trưng sau đây: - Các đặc trưng âm sắc: Gồm 19 đặc trưng: Trung bình phương sai Centroid, Rolloff, Flux,
ZeroCrossing (8), LowEnergy (1); Trung bình phương sai hệ số MFC (10)
- Các đặc trưng nhịp điệu / tiết tấu: Gồm đặc trưng: A1, A2, RA, P1, P2, SUM xác định từ biểu đồ nhịp điệu
- Các đặc trưng cao độ: Gồm đặc trưng: FA0, UP0, FP0, IPO1, FAVG xác định từ biểu đồ cao độ 4.3.Ma trận đánh giá độ xác phân loại
Việc đánh giá phương pháp đề xuất thực file audio tập liệu kiểm tra Kết phân loại hệ thống trình bày ma trận đánh giá độ xác phân loại Bảng
Cơ sở liệu nhạc
Cơ sở liệu vectơ đặc trưng
Vectơ đặc trưng:
- Âm sắc
- Nhịp điệu / tiết tấu - Cao độ
Rút trích đặc trưng
Tín hiệu audio
Rút trích đặc trưng
Vectơ đặc trưng:
- Âm sắc
- Nhịp điệu / tiết tấu - Cao độ
Huấn luyện, nhận dạng
(Bộ phân
loại KNN) - Classical Thể loại nhạc: - Rock