1.4. Ứng dụng của kỹ thuật thị giác máy cho bài toán nhận dạng nhạc số
1.4.1. Biểu diễn bài hát dưới dạng một spectrogram
Khi nhận ủược một bản nhạc thu õm ủó bị nhiễu, người ta mong muốn rằng hệ thống bằng cỏch nào ủú sẽ tỡm ra ủược bài hỏt tương ứng trong một cơ sở dữ liệu lớn cỏc meta-data/fingerprint một cỏch nhanh nhất. Hệ thống cần phải ủỏp ứng cỏc yờu cầu về tớnh chớnh xỏc, về ủộ dài bản nhạc truy vấn và tốc ủộ tỡm kiếm.
Tính chính xác yêu cầu hệ thống phải có khả năng phân biệt giữa các bài hát tương tự nhau bởi vỡ trong thực tế, một bài hỏt ủược phỏt qua bộ phỏt chất lượng khụng cao, ghi õm sử dụng microphone tớch hợp sẵn sẽ rất khỏc so với chớnh bài hỏt ủú ủược phỏt qua một loa cú chất lượng cao và ủược ghi bởi một microphone chất lượng tốt. Bờn cạnh ủú, việc mỗi bản nhạc truy vấn cú thể cú ủộ dài tựy ý và bắt ủầu tại một vị trớ bất kỳ thuộc bài hỏt gốc cũng ủặt ra cho hệ thống cỏc yờu cầu về tớnh cục bộ với sự dịch chuyển thời gian. Hệ thống cũng cần cú khả năng ủỏnh chỉ mục hiệu quả ủể cú thể tỡm kiếm cho kết quả nhanh và chớnh xỏc trờn một cơ sở dữ liệu gồm hàng nghìn bài hát.
Trong thực tế, cỏc tớn hiệu õm thanh 1-D nguyờn bản sẽ thay ủổi rất nhiều khi bị nhiễu và cỏc hệ thống thường khú tớnh toỏn ủược cỏc ủặc trưng. Y. Ke sử dụng
cỏch tiếp cận chuyển ủổi cỏc tớn hiệu õm thanh thành cỏc ảnh 2-D theo tần số (gọi là ảnh phổ - spectrogram) sử dụng phương phỏp biến ủổi Fourier ngắn (short-term Fourier transform) [11]. Với các spectrogram này, người ta dễ dàng nhận thấy ủược sự tương tự giữa cỏc phiờn bản khỏc nhau của cựng một bài hỏt ngay cả khi tớn hiệu gốc ủó bị biến ủổi. Trong hỡnh 1.4, cỏc snippet cú ủộ dài 10 giõy của 3 bài hỏt: melloncamp bản gốc, waterworld, melloncamp bản thu õm ủược biểu diễn theo biờn ủộ, tần số và mó nhị phõn. Ta dễ dàng nhận ra ủược sự giống nhau giữa hai phiên bản melloncamp và khác nhau giữa melloncamp và waterworld khi chỳng ủược biểu diễn theo tần số và mó nhị phõn.
Hỡnh 1. 4 Biểu diễn õm thanh theo biờn ủộ, tần số và mó nhị phõn
Mặc dự việc chuyển ủổi từ tớn hiệu õm thanh theo miền thời gian sang cỏc spectrogram cho phép dễ dàng nhận biết sự giống và khác nhau giữa các tín hiệu âm thanh, việc so sánh dựa trên sự tương tự rất chậm và cho kết quả không chính xỏc. Y. Ke ủó ủề xuất cho hệ thống học một tập cỏc bộ lọc (filter) cho phộp chỉ giữ lại cỏc thụng tin cần thiết ủối với mỗi bài hỏt mà vẫn ủủ ủể phõn biệt giữa cỏc bài hỏt khỏc nhau. Thay vỡ cố gắng xõy dựng thủ cụng tập cỏc filter này, Y. Ke ủịnh nghĩa một lớp các mẫu lọc (candidate filters) và áp dụng kỹ thuật học máy trên lớp
này ủể ủưa ra ủược một tập con cỏc mẫu lọc phự hợp nhất. Tập cỏc mẫu lọc ủưa ra bởi Viola và Jones [13] ủược Y. Ke sử dụng khi xõy dựng cỏc mẫu lọc cho hệ thống của mình.
Hỡnh 1. 5Cỏc ủặc trưng hỡnh chữ nhật ủược biểu diễn trong mối quan hệ với các cửa sổ tìm kiếm bao xung quanh.
Cụ thể hơn, cỏc tỏc giả ủó sử dụng 3 loại ủặc trưng như hỡnh 1.5. ðộ lớn của một ủặc trưng cú hai hỡnh chữ nhật là sự khỏc nhau giữa tổng của cỏc ủiểm ảnh trong hai hình chữ nhật. Hai hình chữ nhật này có kích thước bằng nhau và nằm kề nhau theo trục tung hoặc trục hoành. Tương tự, giỏ trị của ủặc trưng cú ba hỡnh chữ nhật là tổng của cỏc ủiểm ảnh bờn trong hỡnh chữ nhật trung tõm trừ ủi tổng của cỏc ủiểm ảnh nằm trong hai hỡnh chữ nhật bờn ngoài. ðặc trưng cú bốn hỡnh chữ nhật sẽ tớnh toỏn sự khỏc nhau về ủộ lớn ủiểm ảnh giữ hai cặp hỡnh chữ nhật chéo nhau.
Cỏc ủặc trưng hỡnh chữ nhật này sẽ ủược tớnh toỏn nhanh chúng bằng cỏch sử dụng phương phỏp biểu diễn cho ảnh gọi là “intergral image”. Theo ủú, intergral image ở vị trớ là tổng số cỏc ủiểm ảnh ở trờn và bờn trỏi của :
!"#!$"#$
với là intergral image và là ảnh gốc. Khi sử dụng 2 công thức sau:
% % % &
(% là tổng lũy tích hàng, % và ), các intergral image sẽ ủược tớnh toỏn hiệu quả.
Trong hệ thống của Y. Ke, mỗi bộ lọc cú thể thay ủổi theo dải tần số từ 1 tới 33, theo dải thời gian từ 1 frame (11.6 ms) tới 82 frame (951 ms), cho kết quả là cú khoảng 25000 bộ lọc ban ủầu. Từ tập hợp cỏc filter này, Y. Ke chọn ra M filter tiờu biểu nhất (M ủược chọn bằng 32) và ngưỡng tương ứng ủể tạo ra một vộc tơ M bit – gọi là một ủặc trưng (sub-fingerprint, descriptor). Tuy nhiờn, mỗi ủặc trưng này khụng cú ủầy ủủ cỏc thụng tin cần thiết cho phộp xỏc ủịnh chớnh xỏc bài hát gốc từ truy vấn trong một cơ sở dữ liệu gồm hàng trăm nghìn bài hát, mà các signature (là tập cỏc ủặc trưng kế tiếp nhau) mới là ủơn vị cơ bản cho so sỏnh và tìm kiếm.