Chúng tôi ựã xây dựng một hệ thống nhận dạng âm nhạc dựa trên chuỗi ựặc trưng với cơ sở dữ liệu gồm 597 bài hát và tiến hành kiểm tra kết quả tìm kiếm trên hai tập dữ liệu vào T1 và T2 gồm các snippet ựược lựa chọn ngẫu nhiên từ cơ sở dữ liệu 597 bài hát nói trên. Tập dữ liệu T1 bao gồm 956 snippet ựã ựược thu âm trong môi trường nhiều nhiễu (tiếng ồn ban ngày ở khu tập thể, tiếng rè của loa và micro do chất lượng kém, tiếng gió tạo ra từ quạt máy); T2 bao gồm toàn bộ các snippet trong T1 ựã ựược tiền xử lý bằng cách tăng biên ựộ tắn hiệu nhưng không khử nhiễu.
Chúng tôi tiến hành kiểm tra kết quả thực nghiệm trên ba bộ dữ liệu huấn luyện: bộ dữ liệu huấn luyện của Yanke (gọi tắt là YanKe) và hai bộ dữ liệu huấn luyện do chúng tôi tạo ra (gọi tắt là HL1, HL2). Bộ dữ liệu huấn luyện HL1 không chứa các snippet trong 2 tập dữ liệu T1 và T2, trong khi HL2 có một số snippet nằm trong T1.
Khi chạy chương tr
tiền xử lý (T1), ựộ chắnh xác của việc t luyện YanKe, HL1, HL2 l
nghiệm, chúng tôi nhận thấy nếu thực hiện việc tiền xử lý các bản nhạc truy vấn bằng cách tăng thêm biên ự
tăng lên ựáng kể. Kiểm tra với tập dữ liệu T2, chúng tôi thu ự tương ứng như sau 94.3% v
Hình 3. 3So sánh kết quả thực nghiệm với các bộ dữ liệu huấn nhau
Như vậy, cả 2 bộ dữ liệu huấn luyện HL1 v
nghiệm tốt hơn hẳn so với dữ liệu học của Yan Ke ựối với 2 tập dữ liệu v T2. 80% 84% 88% 92% 96% 100% Độchắnh xác
Biểu ựồ so sánh kết quả thực nghiệm với các bộ dữ liệu huấn luyện khác nhau
ương trình, với truy vấn là các snippet ựã thu âm mà ch
ền xử lý (T1), ựộ chắnh xác của việc tìm kiếm tương ứng với 3 bộ dữ liệu huấn ện YanKe, HL1, HL2 là 86.7%, 89.5% và 90%. đồng thời trong quá tr
ệm, chúng tôi nhận thấy nếu thực hiện việc tiền xử lý các bản nhạc truy vấn êm biên ựộ tắn hiệu, ựộ chắnh xác của kết quả tìm ki
ể. Kiểm tra với tập dữ liệu T2, chúng tôi thu ựược các kết quả ựúng ư sau 94.3% với bộ dữ liệu học của Yan Ke, 98% với HL1 v
ết quả thực nghiệm với các bộ dữ liệu huấn
ậy, cả 2 bộ dữ liệu huấn luyện HL1 và HL2 ựều cho kết quả thực ẳn so với dữ liệu học của Yan Ke ựối với 2 tập dữ liệu v
T1 T2 8 6 .7 0 % 9 4 .3 0 % 8 9 .5 0 % 9 8 .0 0 % 9 0 .0 0 % 9 8 .0 0 % Tập dữliệu tìm kiếm
Biểu ựồ so sánh kết quả thực nghiệm với các bộ dữ liệu huấn luyện khác nhau
ã thu âm mà chưa qua ứng với 3 bộ dữ liệu huấn ồng thời trong quá trình thực ệm, chúng tôi nhận thấy nếu thực hiện việc tiền xử lý các bản nhạc truy vấn ìm kiếm ựạt ựược ợc các kết quả ựúng ới bộ dữ liệu học của Yan Ke, 98% với HL1 và HL2.
ết quả thực nghiệm với các bộ dữ liệu huấn luyện khác
ều cho kết quả thực ẳn so với dữ liệu học của Yan Ke ựối với 2 tập dữ liệu vào T1,
Biểu ựồ so sánh kết quả thực nghiệm với các bộ
YanKe HL1 HL2
Bên cạnh ựó, ựể tiến hành so sánh tốc ựộ tìm kiếm giữa hệ thống nhận dạng mới này với hệ thống nhận dạng của Y. Ke, chúng tôi sử dụng một bộ dữ liệu kiểm tra gồm 100 bản nhạc thu âm với ựộ dài 30 giây và tắnh toán thời gian tìm kiếm ựối với mỗi dữ liệu kiểm tra trên hai hệ thống. Kết quả cho thấy bên cạnh một số trường hợp ựặc biệt (không tìm thấy bản nhạc gốc do bản thu âm ựã bị méo và sai khác nhiều so với bản nhạc gốc do ảnh hưởng của tạp âm) với thời gian tìm kiếm tương ựối lâu thì hệ thống mới cho kết quả trả về nhanh hơn hẳn hệ thống của Y. Ke. Theo thống kê, thời gian tìm kiếm trung bình của hệ thống mới nhanh hơn so với hệ thống của Y. Ke 3,6 lần.
Hình 3. 4So sánh thời gian tìm kiếm trên mỗi bản nhạc thu với hệ thống nhận dạng mới (Nhạc số) và hệ thống của Y.Ke (Y. Ke).
0 5 10 15 20 25 30 35 40 45 50 1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 Nhạc số Y. Ke
KẾT LUẬN
Luận văn ựã tiến hành nghiên cứu và xây dựng một hệ thống nhận dạng nhạc số dựa trên chuỗi ựặt trưng âm thanh có tắnh ứng dụng trong thực tế sử dụng phương pháp trắnh rút ựặc trưng cửa sổ gối kết hợp thị giác máy.
Luận văn ựã ựạt ựược những kết quả:
Ớ Giới thiệu và phân tắch các phương pháp xác ựịnh chuỗi ựặc trưng thời sự
nhất.
Ớ Trình bày về hệ quản trị cơ sở dữ liệu quan hệ PostgreSQL và cách viết
hàm mở rộng trong PostgreSQL.
Ớ Xây dựng một bộ dữ liệu huấn luyện cho kết quả tìm kiếm với ựộ chắnh
xác cao hơn hệ thống nhận dạng của Y. Ke và một cơ sở dữ liệu bài hát dựa trên hệ quản trị cơ sở dữ liệu PostgreSQL cho phép ựánh chỉ mục hiệu quả trên các thuộc tắnh tìm kiếm.
Ớ Luận văn cũng ựã tiến hành xây dựng các hàm mở rộng bằng ngôn ngữ C
trong PostgreSQL giúp tăng tốc ựộ tìm kiếm trung bình lên 3,6 lần so với hệ thống nhận dạng của Y. Ke.
TÀI LIỆU THAM KHẢO
[1]. Shazam website <http://www.shazam.com/> [2]. Relatable website <http://www.relatable.com> [3]. Musipedia website <http://www.musipedia.org/> [4]. Napster website <http://www.napster.com>
[5]. Y. Ke, D. Hoiem, R. Sukthankar, Computer Vision for Music Identification, Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2005.
[6]. Y.Ke et al., Computer vision for music identification: server code, <http://www.cs.cmu.edu/~yke/musicretrieval/musicretr-1.0.tar.gz, 2005>.
[7]. S. Baluja, M. Covell, Content fingerprinting using wavelets,
Proceedings of the 3rd European Conference on Visual Media Production (CVMP), 2006.
[8]. S. Baluja, M. Covell, Audio Fingerprinting: Combining Computer Vision & Data Stream Processing, Proceeding of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2007.
[9]. C. Burges, J. Platt, S. Jana, Distortion Discriminant Analysis for Audio Fingerprinting, IEEE Transactions on Pattern Analysis and Machine Intelligencve, 11 (3), 2003.
[10]. J. Haitsma, T. Kalker, J. Oostveen, Robust Audio Hashing for Content Identification, Content Based Multimedia Indexing 2001, Brescia, Italy, 2001.
[11]. J. Haitsma, T. Kalker, A Highly Robust Audio Fingerprinting System,
Proceedings of the International Conference for Music Information Retrieval, 2002.
[12]. M. Covell, S. Baluja, Known-Audio Detection Using Waveprint: Spectrogram Fingerprinting By Wavelet Hashing, Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP), 2007.
[13]. P. Viola andM. Jones. Rapid object detection using a boosted cascade of simple features. In Proceedings of Computer Vision and Pattern Recognition, 2001.
[14]. M. Fischler and R. Bolles. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography.
Communications of the ACM, 24(6), 1981.
[15]. Allamanche E., Herre J., Hellmuth O., Bernhard Frỏbach B. and Cremer M., ỘAudioID: Towards Content-Based Identification of Audio MaterialỢ, 100th AES Convention, Amsterdam, The Netherlands, May 2001.
[16]. Fragoulis D., Rousopoulos G., Panagopoulos T., Alexiou C. and Papaodysseus C., ỘOn the Automated Recognition of Seriously Distorted Musical RecordingsỢ, IEEE Transactions on Signal Processing, vol.49, no.4, p.898-908, April 2001.
[17]. Logan B., ỘMel Frequency Cepstral Coefficients for Music ModelingỢ, Proceeding of the International Symposium on Music Information Retrieval (ISMIR) 2000, Plymouth, USA, October 2000.
[18]. Jacobs, Finkelstein, Salesin. Fast Multiresolution Image Querying. Proc SIGGRAPH, 1995.
[19]. P. Indyk and R. Motwani. Approximate nearest neighbor towards removing the curse of dimensionality. In Proceedings of Symposium on Theory of Computing, 1998.
[20]. D. Lowe. Object recognition from local scale-invariant features. In Proceedings of International Conference on Computer Vision, 1999.
[21]. Fftw website <http://www.fftw.org/> [22]. Ffmpeg website <http://www.ffmpeg.org/> [23]. Mpg123 website http://www.mpg123.de/
[24]. PostgreSQL 8.0
[25]. Beginning Databases with PostgreSQL: From Novice to Professional, Second Edition, by Nei Matthew and Richard Stones
[26]. The comprehensive guide to building, programming, and administering PostgreSQL databases, Second Edition by Korry Douglas, Susan Douglas.