Thuật toán

3.2.1. Trích rút đặc trƣng

Để xác định thể loại của một bài nhạc, cần xác định đặc trƣng của chúng sao cho máy tính có thể phân biệt sự khác nhau giữa các loại nhạc. Chƣơng này sẽ giới thiệu một số phƣơng pháp chính trong việc rút trích đặc trƣng các tập tin nhạc và đề cập đặc trƣng thƣờng sử dụng trong phân tích nhạc.

Rút trích đặc trƣng là quá trình xử lý tính toán để đƣa ra các đặc trƣng cần thiết cho việc phân loại nhạc. Ngoài ra, việc chọn lọc đặc trƣng từ dữ liệu đầu vào sẽ làm giảm số chiều và do đó sẽ làm tăng hiệu quả về mặt thời gian nhận dạng.

Trong bài báo “Musical Genre Classification of Audio Signals” của George Tzanetakis và Pery Cook, nhóm tác giả đã sử dụng ba tập đặc trƣng sau:

Hình 3.2 Sơ đồ một vector đặc trƣng từ một tín hiệu nhạc

 Các đặc trƣng liên quan đến bố cục âm sắc (Timbral Texture Features).

 Các đặc trƣng liên quan đến nhịp nhạc (Rhythmic Content Features).

 Các đặc trƣng liên quan đến độ cao thấp nốt nhạc (Pitch Content Features). Tuy nhiên, do hạn chế về trình độ và thời gian, em chỉ sử dụng các đặc trƣng về bố cục âm sắc cho việc phân loại nhạc.

3.2.2. Các đặc trƣng liên quan đến bố cục âm sắc (Timbral Texture Features)

Quá trình xác định đặc trƣng về bố cục âm sắc đƣợc mô tả bởi sơ đồ sau:

Hình 3.3 Sơ đồ xác định các đặc trƣng liên quan đến bố cục âm sắc

Các đặc trƣng liên quan đến bố cục âm sắc đƣợc xác định dựa trên STFT và đƣợc tính trên mỗi cửa sổ. Sau đây là các đặc trƣng đƣợc dùng để biểu diễn bố cục âm sắc.

Spectral Centroid

Spectral Centriud đƣợc định nghĩa là đo lƣờng phân bố năng lƣợng của phổ

biên độ khi thực hiện STFT tín hiệu.

Tín hiệu nhạc Rút trích đặc trƣng Chọn lọc đặc trƣng Vector đặc trƣng

39 𝐶𝑡 = 𝑀𝑡 𝑛 ∗𝑛 𝑁 𝑛 =1 𝑀𝑡 𝑁 𝑛 =1 𝑛 (3.1)

Trong đó Mt[n] là biên độ của biến đổi Fourier cửa sổ t ứng với tần số n.

Centroid là một độ đo về trạng thái phổ của phổ. Các giá trị Centroid cao hơn tƣơng ứng với phổ có độ sáng chói hơn và chứa nhiều tần số cao.

Spectral Rolloff

Spectral Rolloff đƣợc định nghĩa nhƣ một tần số Rt sao cho có khoảng 85% phân bố năng lƣợng đƣợc tập trung.

𝑅𝑡 𝑀𝑡 𝑛 = 0.85 ∗ 𝑁𝑛=1𝑀𝑡 𝑛

𝑛 =1 (3.2)

Rolloff cũng là một độ đo về trạng thái của phổ. Nó cho biết năng lƣợng của tín hiệu tập trung ở các tần số thấp.

Spectral Flux

Spectral Flux đƣợc định nghĩa là bình phƣơng hiệu giữa các biên độ chuẩn của sự phân bố phổ

𝐹𝑡 = 𝑁𝑛 =1 𝑁𝑡 𝑛 − 𝑁𝑡−1 𝑛 2 (3.3)

Trong đó Nt[n] và Nt-1[n] biên độ chuẩn khi thực hiện biến đổi Fourier ở cửa sổ t và t-1 trƣớc đó.

𝑁𝑡 𝑛 = 𝑀𝑡 𝑛

𝑁𝑖=1 𝑀𝑡 𝑖 2

(3.4)

Spectral Rolloff là độ đo về sự thay đổi phổ biên độ cục bộ.

Time Domain Zero Crossings

Time Domain Zero Crossings là độ đo độ ồn của tín hiệu. Nó xuất hiện khi các mẫu kề nhau trong tín hiệu số khác dấu. Nó đƣợc tính bởi công thức:

40 𝑍𝑡 = 1 2 𝑁 𝑠𝑖𝑔𝑛 𝑥 𝑛 − 𝑠𝑖𝑔𝑛 (𝑥 𝑛 − 1 ) 𝑛=1 (3.5) Trong đó: 𝑠𝑖𝑔𝑛 (𝑥 𝑛 = 1 𝑥 𝑛 ≥ 0 0 𝑥 𝑛 < 0

x[n] là tín hiệu trong toàn miền thời gian ở cửa sổ t

Đặc trưng Low Energy

Low Energy là độ đo tỷ lệ phần trăm cửa sổ phân tích năng lƣợng RMS thấp

hơn năng lƣợng RMS trung bình của các cửa sổ phân tích. Root-Mean-Square (RMS) đƣợc xác định bởi công thức:

𝑅𝑀𝑆𝑡 = (𝑀𝑡 𝑖 2 𝑁

𝑖=1

𝑁 (3.6) RMS là độ đo độ to của âm thanh trong một cửa sổ

Mel-Frequency Cepstral Coefficients (MFCC)

Các hệ số MFC đƣợc xác định dựa trên STFT. Đầu tiên, tín hiệu nhạc đƣợc thực hiện bởi FFT sau đó qua các bộ lọc băng tần (Mel-Scale Filters), kết quả đƣợc chuyển qua log cơ số 10, và cuối cùng là qua phép biến đổi cosin rời rạc để đƣa ra các đặc trƣng về âm nhạc (tƣơng tự nhƣ cơ quan thính giác của con ngƣời).

Tín hiệu đầu tiên đƣợc chia nhỏ thành các cửa sổ tín hiệu thành phần, sau đó áp dụng các bƣớc sau để tính các hệ số MFC.

 Bƣớc 1: Thực hiện FFT trên mỗi tín hiệu thành phần.

 Bƣớc 2: Kết quả đƣợc xác định bởi bƣớc 1 sẽ đƣợc đƣa qua một loạt băng tần, các bộ lọc này đƣợc xây dựng bằng cách dùng 13 bộ lọc tuyến tính ( khoảng cách giữa các tần số trung tâm là 133.33 KHz) và theo sau bởi 27

bộ lọc phi tuyến (mỗi tần số trung tâm cách nhau bởi một hệ số nhân của 1.0711703).

 Bƣớc 3: Kết quả ở bƣớc 2 đƣợc biến đổi sang log cơ số 10.

 Bƣớc 4: Thực hiện biến đổi cosin rời rạc kết quả ở bƣớc 3. Kết quả ta đƣợc 1 vector đặc trƣng gồm 13 hệ số.

13 hệ số này đƣợc dùng nhận dạng giọng nói. Tuy nhiên, chỉ chọn 5 hệ số MFC đầu tiên cũng đủ cho việc phân loại nhạc.

Vector đặc trƣng bố cục âm sắc

Vector đặc trƣng bố cục âm sắc bao gồm các đặc trƣng: Trung bình và phƣơng sai của Spectral Centroid, Spectral Rolloff, Spectral Flux, ZeroCrossing, LowEnergy, và trung bình và phƣơng sai của 5 MFCC đầu tiên. Có kết quả

trong 1 vector đặc trƣng 19 chiều.

3.2.3. Cân bằng hệ số các đặc trƣng liên quan đến bố cục âm sắc

Việc rút trích đặc trƣng đƣợc trình bày ở phần trên sẽ đƣa ra các hệ số thể hiện đặc trƣng về bố cục âm sắc. Tuy nhiên, có một vấn đề đó là các hệ số trên chƣa đƣa về một kích thƣớc chuẩn. Chính vì vậy cần đề xuất một cách để đƣa các hệ số về một kích thƣớc chuẩn.

Chuẩn hóa các hệ số bằng phƣơng pháp nhƣ sau. Chỉ xét đến một số trong 19 đặc trƣng, các hệ số còn lại làm tƣơng tự. Đƣa miền giá trị của đặc trƣng về dạng tƣơng đồng (ở đây cụ thể là từ [0, 1000]).

Giả sử ta có một dãy hệ số đầu tiên trong 19 đặc trƣng, là một chuỗi x1, x2, …, xn,.

Việc chuẩn hóa sẽ đƣợc tính theo nhƣ sau: 𝛼 = 1000

42 𝑥𝑖 → 𝛼𝑥𝑖

Gọi α là hệ số chuẩn hóa cho đặc trƣng với tập mẫu huấn luyện tƣơng ứng. Với i = 1, . . . n, n là số vector đặc trƣng của mẫu huấn luyện.

Với hi vọng là độ đa dạng của tập dùng để học là đủ để chứa giá trị lớn nhất có thể của một đặc trƣng hoặc nếu có lớn hơn thì cũng không quá lớn. Vì vậy có thể áp dụng công thức trên cho các đặc trƣng đƣa vào để phân loại sau này. Với mỗi lần thêm cơ sở dữ liệu để đọc, tiến hành thực hiện lại hàm tìm α.

Vector đặc trƣng của một tập tin nhạc cần phân loại, sẽ nhân giá trị của từng đặc trƣng với hệ số chuẩn hóa (α) tƣơng ứng.

3.2.4. Khoảng cách giữa hai mẫu

Tất cả các mẫu đƣợc xem nhƣ là các điểm biểu diễn trong không gian Rn. Khoảng cách mẫu láng giềng so với mẫu cần kiểm tra là d(k,x) đƣợc xác định dựa trên khoảng cách Ơ-clit (k là mẫu láng giềng, x là mẫu cần kiểm tra). Xác xuất của mẫu kiểm tra x thuộc thể loại ci đƣợc xác định nhƣ sau:

𝑝 𝑐𝑖 𝑥 = 𝑘∈𝑈 ,𝑘𝑐 =𝑐𝑖𝑊𝑘 𝑊𝑘 𝑘∈𝑈 (3.8) 𝑊𝑘 = 1 𝑑(𝑘, 𝑥) Trong đó:

 U là một tập hợp gồm k mẫu láng giềng gần x nhất, k là mẫu láng giềng gần x nhất (k ∈ 𝑈).

 kc là thể loại của k và d(k,x) là khoảng cách Ơ-clit từ k đến x.

 ci là thể loại thứ i, i = 1, 𝑛 (hệ thống có thể có n=4 thể loại hoặc n=10 thể loại).

Xác định khoảng cách Ơ-clit

Có nhiều cách xác định tính đồng dạng của các vector đặc trƣng. Thuật toán KNN thƣờng dựa trên việc xác định khoảng cách giữa các vector đặc trƣng trong không gian Rn. Khoảng cách sử dụng là khoảng cách Minkowski:

𝑑𝑝 𝑥𝑖, 𝑥𝑗 = |𝑥𝑖,𝑚 − 𝑥𝑗 ,𝑚| 𝑝 = 𝑥𝑖 − 𝑥𝑗 𝑝 𝑑 𝑚 =1 𝑝 (3.9)

Thông thƣờng ngƣời ta dùng khoảng cách Ơ-clit để xác định khoảng cách giữa các đối tƣợng trong không gian Rn. Khoảng cách Ơ-clit là một trƣờng hợp đặc biệt của khoảng cách Minkowski với p=2.

𝑑2 𝑥𝑖, 𝑥𝑗 = 𝑝 𝑑𝑚 =1 |𝑥𝑖,𝑚 − 𝑥𝑗 ,𝑚| 2 = 𝑥𝑖 − 𝑥𝑗

2 (3.10)

Trong đó, xi và xj là các mẫu đang xét (i≠ 𝑗), d là số chiều của vector đặc trƣng. Đối với hệ thống phân loại nhạc theo thể loại, sử dụng vector đặc trƣng 19 chiều, nhƣ vậy công thức trên d=30.

3.2.5. Huấn luyện nhận dạng

Trong giai đoạn huấn luyện và nhận dạng, rút trích đặc trƣng từng tập tin nhạc và lƣu trữ lại các đặc trƣng đó. Việc lƣu giữ này rất có ích. Vì trong quá trình nhận dạng, nếu nhƣ không thực hiện bƣớc trên, sẽ phải tốn một chi phí thanh toán cho việc phải rút trích đặc trƣng các tập tin nhạc mẫu. Nếu nhƣ ta rút trích đặc trƣng và lƣu xuống đĩa thì trong giai đoạn nhận dạng, sẽ giảm đƣợc một lƣợng chi phí thanh toán lớn.

Trong giai đoạn nhận dạng, sử dụng K-nearest neighbor để nhận dạng xem một tập tin nhạc đầu vào thuộc thể loại nhạc nào. Phƣơng pháp K-nearest neighbor em đã trình bày ở chƣơng 2. Sử dụng k=1, . . . ,10 cho việc phân loại tập tin nhạc và khoảng cách Ơ-clit để xác định khoảng cách giữa hai mẫu.

Tên kho mẫu: GTZAn Genre Collection Số thể loại nhạc: 10  Blues  Classical  Country  Disco  Hiphop  Jazz  Metal  Pop  Regguage  Rock Ngôn ngữ thực hiện: C Số đặc trƣng đƣợc sử dụng: 19 Tên đặc trƣng Số đặc trƣng Spectral Centroid 2 Rolloff 2 Flux 2 ZeroCrossing 2 LowEnergy 2 MFCC 10

Thử nghiệm với 10 thể loại

Kết quả 1: Tỷ lệ chính xác không dùng chuẩn hóa độ đo (tính theo %). Kết quả 2: Tỷ lệ chính xác khi dùng chuẩn hóa độ đo (tính theo %)

K Kết quả 1 Kết quả 2 1 22 46 2 22 46 3 26 49 4 24 51 5 24 50 6 25 51 7 22 49 8 23 50 9 25 48 10 25 47

Hình 3.5 Biểu đồ tƣơng quan độ chính xác phân loại 10 thể loại Hình ảnh chƣơng trình thực nghiệm

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

Việc phân loại nhạc theo thể loại đƣợc thực hiện chủ yếu dựa vào 3 tập đặc trƣng rút trích từ tín hiệu audio:

 Tập đặc trƣng 1: 19 đặc trƣng liên quan đến bố cục âm sắc.

 Tập đặc trƣng 2: 6 đặc trƣng liên quan đến nhịp nhạc.

 Tập đặc trƣng 3: 5 đặc trƣng liên quan đến độ cao thấp nốt nhạc.

Trong khóa luận tốt nghiệp này, em chỉ sử dụng đến tập đặc trƣng 1, đó là 19 đặc trƣng liên quan đến bố cục âm sắc. Tuy nhiên, em đã sử dụng bƣớc cân bằng hệ số để đƣa hệ số về kích thƣớc chuẩn, điều này đã làm cho việc phân loại đúng cao hơn so với chƣa cân bằng hệ số. So với việc sử dụng hết tập 3 đặc trƣng của tín hiệu audio, thì việc phân loại này cho kết quả thấp hơn, nhƣng tƣơng đối chính xác, có thể chấp nhận đƣợc.

Hạn chế

 Hệ thống chỉ hỗ trợ định dạng WAV, AU.

 Hệ thống chỉ hỗ trợ trích xuất 30 giây nhạc

 Hiện nay số lƣợng bài nhạc tiến hành huấn luyện và thử nghiệm đều code tĩnh trong source.

Hƣớng phát triển

 Tăng cƣờng huấn luyện để nâng cao độ chính xác . . .

 Xây dựng giao diện nhằm dễ sử dụng

 Hệ thống sẽ hỗ trợ nhiều tập tin nhạc khác nhau nhƣ: Mp3, WMA, OGG, FLAC…

 Hệ thống sẽ hỗ trợ đầy đủ các tập tin nhạc có những độ dài thời gian khác nhau.

 Thiết kế với hệ thống phân loại khác nhƣ: Support vector Machine, mạng Neu-ron, Bayes,…

 Nghiên cứu để có thể sử dụng Wavelet để rút trích đặc trƣng về nhịp nhạc, cao độ của nhạc để tăng cƣờng độ chính xác.

TÀI LIỆU THAM KHẢO

1. Alexander Lerch, Juan Jos'e Buerred (September, 2003), "A hierar chical approach to automatic musical genre classification". Conference on Digital Audio Effects, London, UK, September 8-11, 2003.

2. Phan Anh Cang. Phân loại nhạc theo thể loại dùng phép biến đổi wavelet rời rạc. Luận văn thạc sĩ. Đại học Khoa học Tự Nhiên TP. Hồ Chí Minh, 2004

3. Perry Cook, George Tzantakis. Music genre classification of audio signals. IEEE Trans, 10:293-302, 2002.5.

4. Xuancheng Shao and Stevent G.Johson. Type-ii/iii dct/dst algorithms with reduced number of arithmetic. Department of Mathematics, Massachusetts In-stitute of Technology, Cambridge, 2007.

Phân lớp K– Nearest Neighbor