Time Domain Zero Crossings

Một phần của tài liệu Khoá luận tốt nghiệp áp dụng thuật toán k nearest neighbor để phân loại nhạc theo thể loại (Trang 38)

Time Domain Zero Crossings là độ đo độ ồn của tín hiệu. Nó xuất hiện khi các mẫu kề nhau trong tín hiệu số khác dấu. Nó được tính bởi công thức:

(3.2)

r , _ (1 x[n] > 0

sign

c*[n] = ; “

x[n] là tín hiệu trong toàn miền thòi gian ở cửa sổ t Đặc trưng Low Energy

Low Energy là độ đo tỷ lệ phần trăm cửa sổ phân tích năng lượng RMS thấp hơn năng lượng RMS trung bình của các cửa sổ phân tích. Root-Mean-Square (RMS) được xác định bởi công thức:

(3.6)

RMS là độ đo độ to của âm thanh trong một cửa sổ

Mel-Frequency Cepstral Coefficients (MFCC)

Các hệ số MFC được xác định dựa trên STFT. Đầu tiên, tín hiệu nhạc được thực hiện bởi FFT sau đó qua các bộ lọc băng tần (Mel-Scale Filters), kết quả được chuyển qua log cơ số 10, và cuối cùng là qua phép biến đổi cosin ròi rạc để đưa ra các đặc trưng về âm nhạc (tương tự như cơ quan thính giác của con người).

Tín hiệu đầu tiên được chia nhỏ thành các cửa sổ tín hiệu thành phần, sau đó áp dụng các bước sau để tính các hệ số MFC.

+ Bước 1: Thực hiện FFT trên mỗi tín hiệu thành phần.

sign (x[n] = (3.5)

+ Bước 2: Kết quả được xác định bởi bước 1 sẽ được đưa qua một loạt băng tần, các bộ lọc này được xây dựng bằng cách dùng 13 bộ lọc tuyến tính ( khoảng cách giữa các tần số trung tâm là 133.33 KHz) và theo sau bởi 27bộ lọc phi tuyến (mỗi tần số trung tâm cách nhau bởi một hệ số nhân của 1.0711703).

+ Bước 3: Kết quả ở bước 2 được biến đổi sang log cơ số 10.

+ Bước 4: Thực hiện biến đổi cosin ròi rạc kết quả ở bước 3. Kết quả ta được 1 vector đặc trưng gồm 13 hệ số.

13 hệ số này được dùng nhận dạng giọng nói. Tuy nhiên, chỉ chọn 5 hệ số MFC đầu tiên cũng đủ cho việc phân loại nhạc.

Vector đặc trưng bổ cục âm sắc

Vector đặc trưng bố cục âm sắc bao gồm các đặc trưng: Trung bình và phương sai của Spectral Centroid, Spectral Rolloff, Spectral Flux, ZeroCrossing, LowEnergy, và trung bình và phương sai của 5 MFCC đầu tiên.

Có kết quả trong 1 vector đặc trưng 19 chiều.

3.2.3. Cân bằng hệ số các đặc trưng liên quan đến bố cục âm sắc

Việc rút trích đặc trưng được trình bày ở phần trên sẽ đưa ra các hệ số thể hiện đặc trưng về bố cục âm sắc. Tuy nhiên, có một vấn đề đó là các hệ số trên chưa đưa về một kích thước chuẩn. Chính vì vậy cần đề xuất một cách để đưa các hệ số về một kích thước chuẩn.

Chuẩn hóa các hệ số bằng phương pháp như sau. Chỉ xét đến một số trong 19 đặc trưng, các hệ số còn lại làm tương tự. Đưa miền giá trị của đặc trưng về dạng tương đồng (ở đây cụ thể là từ [0, 1000]).

Giả sử ta có một dãy hệ số đầu tiên trong 19 đặc trưng, là một chuỗi Xi x2 ..

Xn,.

a = ———--- (3.7)

TĨỈCLX ^ 71 ^ k

Xị -> aXị

Gọi a là hệ số chuẩn hóa cho đặc trưng với tập mẫu huấn luyện tương ứng. Vói i = 1 , . . . n, n là số vector đặc trưng của mẫu huấn luyện.

Với hi vọng là độ đa dạng của tập dùng để học là đủ để chứa giá trị lớn nhất có thể của một đặc trưng hoặc nếu có lớn hơn thì cũng không quá lớn. Vì vậy có thể áp dụng công thức trên cho các đặc trưng đưa vào để phân loại sau này. Với mỗi lần thêm cơ sở dữ liệu để đọc, tiến hành thực hiện lại hàm tìm a.

Vector đặc trưng của một tập tin nhạc cần phân loại, sẽ nhân giá trị của từng đặc trưng với hệ số chuẩn hóa (a) tương ứng.

3.2.4. Khoảng cách giữa hai mẫu

Tất cả các mẫu được xem như là các điểm biểu diễn trong không gian Rn. Khoảng cách mẫu láng giềng so vói mẫu cần kiểm tra là d(k,x) được xác định dựa trên khoảng cách ơ-clit (k là mẫu láng giềng, X là mẫu cần kiểm tra). Xác xuất của mẫu kiểm tra X thuộc thể loại Cị được xác định như sau:

(3.8)

wk =(k, X)

Trong đó:

+ u là một tập hợp gồm k mẫu láng giềng gần X nhất, k là mẫu láng giềng

gần X nhất (k G U).

+ kc là thể loại của kd(k,x) là khoảng cách ơ-clit từ k đến X.

+ Cị là thể loại thứ ỉ, i = 1,71 (hệ thống có thể có n=4 thể loại hoặc n=10 thể

Một phần của tài liệu Khoá luận tốt nghiệp áp dụng thuật toán k nearest neighbor để phân loại nhạc theo thể loại (Trang 38)

Tải bản đầy đủ (DOCX)

(53 trang)
w