Rút trích kí âm

Một phần của tài liệu Nhận dạng bản nhạc dựa trên việc phân tích ký âm (Trang 48 - 50)

4. Phạm vi luận án Error! Bookmark not defined.

6.1.Rút trích kí âm

6.1.1. Gii thiu

Như đã trình bày trong chương 5, kết quả của quá trình biến đổi FFT, phân tích phổ cho tín hiệu đầu vào là file thu âm ta thu được một mảng các phần tử, mỗi phần tử gồm có hai thành phần đó là: tần số và biên độ của chúng. Và việc rút trích kí âm cho đến bước này chỉ là nhóm một vài phần tử liên tiếp trong mảng lại thành một phần tử, phần tử này được gọi là một ký âm, ký âm sẽ có hai thành phần cơ bản là: tần số, và thời gian tồn tại. Như vậy với đầu vào là một mảng N phần tử gồm hai trường (tần số, biên độ), ta xây dựng hàm nhóm các phần tử ở đầu vào, kết quả hàm đầu ra trả về một mảng M ký âm gồm hai trường (tần số, thời gian) => M < N.

- Trường thời gian của một ký âm được tính như sau:

(6.1) Trong đó: n là số phần tử được gọp,

(6.2), sampling rate: tần số lấy mẫu của file thu âm - Trường tần số:

(6.3)

6.1.2. Xây dng hàm nhóm các phn t.

Đầu vào của hàm: mảng N phần tử, mỗi phần tử có (f:tần số, A: biên độ), thời gian tồn tại mỗi phần tử giống nhau và bằng như công thức (6.2).

Đầu ra của hàm: mảng M phần tử, M<N, mỗi phần tử gồm (f: tần số, time: thời gian tồn tại), được tính toán theo công thức (6.1), (6.3).

Tóm tắt lại các bước thực hiện cho đến bước hiện tại ta có thể hình dung qua sơ đồ như sau:

Hình 6.1: Sơ đồ các bước công việc tới thời điểm hiện tại.

Công việc xây dựng hàm nhóm phần tử: Để nhóm các phần tử lại với nhau ta dựa vào tần số và biên độ của các phần tử liên tiếp trong mảng đầu vào. Tiêu chí để nhóm các phần tử lại với nhau phụ thuộc vào việc đánh giá dữ liệu file nhạc gốc ban đầu.

- Đầu tiên: vấn đề chuyển nốt nhạc, khi hai nốt nhạc liền kề trong bản nhạc được phát liên tiếp, thì biên độ của nốt đứng trước sẽ giảm dần tới mức rất nhỏ sau đó biên độ của nốt nhạc đứng sau được đẩy lên cao. Dựa vào tính chất này, công việc nhóm nốt nhạc sẽ xem xét biên độ, tần số của các phần tử liên tiếp, cùng với việc suy đoán về sai số do tín hiệu bị nhiễu, chiều dài tối thiểu,… để đưa ra quyết định gọp chúng lại với nhau hay tách ra. - Thứ hai: Chiều dài tối thiểu của một nhóm, nhận xét rằng các ký âm trong một bản nhạc bình thường thì nốt đen là nốt có thời gian được phát nhanh nhất và bằng 0.125(s), vì thế chiều dài tối thiểu của các phần tử trong một nhóm là: phần tử, với t được tính theo công thức (6.2). Như vậy với những nhóm mà có độ dài bé hơn chiều dài tối thiểu thì ta sẽ quy chúng về dấu nghĩ, và có tần số bằng 0. Chiều dài tối thiểu còn được áp dụng cho trường hợp phía trên, để bổ sung thêm thông tin đưa ra quyết định nên nhóm hay không nhóm phần tử tiếp theo tại bước lặp,…

Một phần của tài liệu Nhận dạng bản nhạc dựa trên việc phân tích ký âm (Trang 48 - 50)