Tổng quan hệ thống

Trên cơ sở mô hình chung cho các ứng dụng nhận dạng âm thanh dựa vào nội dung như trong hình 9, ứng dụng thử nghiệm được xây dựng dựa trên hệ thống phát triển bởi Yan Ke. Hệ thống sử dụng những kỹ thuật về học máy để phát triển một thuật toán chuỗi đặc trưng âm thanh cho nhận dạng nhạc số. Khi đưa ra 10 giây nhạc của một bản ghi có chất lượng thấp qua điện thoại di động chẳng hạn, hệ thống sẽ nhận dạng chính xác bài hát trong một cơ sở dữ liệu gồm rất nhiều bài hát.

Hình 9: Mô hình chung của các ứng dụng nhận dạng nhạc dựa vào nội dung.

Trong ứng dụng này sử dụng phương pháp computer vision (một kỹ thuật mạnh cho việc phân tích dữ liệu âm thanh) để lựa chọn ra các thuộc tính trong quá trình trích rút ra chuỗi đặc trưng. Ta coi ảnh phổ của mỗi đoạn nhạc như một hình ảnh 2-D và chuyển việc nhận dạng nhạc thành vấn đề tìm kiếm và phục hồi lại ảnh con bị hỏng. Bằng việc sử dụng thuật toán pairwise boosting trên một tập lớn các thuộc tính, hệ thống của chúng ta biết thỏa thuận, phân biệt các kí hiệu nhận diện cục bộ tuân theo chỉ mục có hiệu quả. Trong giai đoạn tìm kiếm, chúng ta tìm lại được tập những đoạn trích ngắn của bài hát phù hợp với mẫu âm thanh truy vấn và sử dụng việc kiểm tra hình học trong sự liên kết với một mô hình EM-based “occlusion” để xác định bài hát phù hợp nhất với tín hiệu được theo dõi. Chúng ta thực thi thuật toán trong một hệ thống cụ thể mà có thể nhận ra nhanh chóng và chính xác nhạc từ những mẫu âm thanh ngắn trong sự biểu diễn không rõ ràng như chất lượng thu âm kém và có tiếng ồn xung quanh.

Hiệu quả của hệ thống