Hình 11: Tốc độ tìm kiếm bài hát trên tập dữ liệu kết hợp với các đoạn truy vấn âm thanh có độ dài khác nhau
Hình 11 hiển thị tốc độ tìm kiếm bài hát trên tập test kết hợp A và B với các đoạn truy vấn từ 10-15 giây tương ứng với 860 và 1290 kí hiệu mô tả, tách biệt nhau. Chúng ta thấy rằng các truy vấn dài hơn cải thiện không đáng kể các kết quả tìm kiếm. Trong một hệ thống thực tế người sử dụng mong muốn đạt được độ chính xác lý tưởng trong khi sử dụng một truy vấn ngắn nhất có thể.
Hình 12: Đường cong P-R cho việc tìm kiếm ở mức bài hát trên những tập dữ liệu riêng biệt với những truy vấn có độ dài 10 giây
Hình 12 biểu diễn các kết quả cho những tập dữ liệu riêng biệt trên các bản ghi âm có độ dài 10 giây. Đối với Test A, chúng ta đạt được 90% độ hồi tưởng với độ chính xác 96%. Test B có nhiều thử thách hơn nhưng chúng ta vẫn có thể đạt được 80% độ hồi tưởng với độ chính xác 93%.
Hình 13: Tác động của điểm bắt đầu với khoảng cách Hamming trong việc tìm kiếm bài hát
Hình 13 biểu diễn tốc độ tìm kiếm bài hát đối với điểm bắt đầu có khoảng cách Hamming là 0, 1 và 2 bit trong Test A. Hiệu quả cải thiện khi chúng ta cho phép nhiều bit lỗi hơn, nhưng sự tăng biên thấp đi sau khoảng cách là 1 trong khi thời gian truy vấn tiếp tục tăng theo hàm mũ, vì thế quyết định của chúng ta giới hạn việc tìm kiếm kí hiệu mô tả gần nhau trong phạm vi 2 bit.
KẾT LUẬN
Khóa luận đã trình bày một cách tổng quan về hệ thống chuỗi đặc trưng âm thanh và các ứng dụng phổ biến của nó. Trong khóa luận cũng trình bày chi tiết hai phương pháp khác nhau về việc trích rút ra chuỗi đặc trưng âm thanh của một đoạn âm thanh và cách thức tìm kiếm chuỗi đặc trưng phù hợp với nó trong một cơ sở dữ liệu lớn. Qua đó chúng ta đã có hình dung khái quát về chuỗi đặc trưng – một nền tảng quan trọng trong các ứng dụng liên quan đến âm thanh.
Trong phần cuối của khóa luận cũng đã xây dựng được một hệ thống thử nghiệm ứng dụng chuỗi đặc trưng trong việc nhận dạng nhạc số. Ứng dụng mới dừng lại ở việc nhận dạng các bài hát trên một tập cơ sở dữ liệu nhỏ. Sau này ứng dụng sẽ tiếp tục được hoàn thiện với việc nghiên cứu cải tiến độ chính xác của thuật toán tìm kiếm và mở rộng ra nghiên cứu các thuộc tính của chương trình bằng cách chỉ mục hóa những bộ sưu tập nhạc lớn hơn.
Hi vọng rằng khóa luận này sẽ góp phần khuyến khích các nghiên cứu sâu hơn nữa về chuỗi đặc trưng của các đối tượng đa phương tiện trong tương lai(bao gồm cả âm thanh và hình ảnh nói chung) nhằm mục đích tạo ra nhiều ứng dụng tiện ích phục vụ cuộc sống của con người.
TÀI LIỆU THAM KHẢO
[1] Baluja, Covell, Content fingerprinting using wavelets, Proceedings of the 3rd European.
Conference on Visual Media Production (CVMP), 2006.
[2] P. Cano, E. Batlle, T. Kalker, J. Haitsma, A review of algorithms for audio fingerprinting, In Workshop on Multimedia Signal Processing, 2002.
[3] J. Haitsma, T. Kalker, A Highly Robust Audio Fingerprinting System, Proceedings of International Conference for Music Information Retrieval, 2002. [4] Y. Ke, D. Hoiem, R. Sukthankar, Computer Vision for Music Identification, Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2005.
[5] Y. Ke et al., Computer vision for music identification: server code, http://www.cs.cmu.edu/ yke/musicretrieval/musicretr-1.0.tar.gz, 2005. [6] Website Auditude http://www.auditude.com
[7] Website Napster http://www.napster.com [8] Website Music Brainz http://musicbrainz.org/ [9] Website Shazam http://www.shazam.com/
[10] Website Tunatic http://www.wildbits.com/tunatic/ [11] Website Yacast http://www.yacast.com