1.4. Ứng dụng của kỹ thuật thị giác máy cho bài toán nhận dạng nhạc số
1.4.4. Quá trình nhận dạng nhạc số
Sử dụng cách biểu diễn ựặc trưng như trong 1.4.2, hệ thống xây dựng các signature cho toàn bộ các bài hát trong cơ sở dữ liệu. Trong quá trình nhận dạng, hệ thống thực hiện việc tìm kiếm tương tự giữa các ựặc trưng của bản nhạc truy vấn với trong cơ sở dữ liệu các signature này. Trong thực tế, kắch thước cơ sở dữ liệu thường rất lớn, ựòi hỏi phải có một chiến lược tìm kiếm tương tự hiệu quả trong không gian ựa chiều của các ựặc trưng (32-bit). Một sự lựa chọn tự nhiên là sử dụng thuật toán băm LSH (Locality-Sensitive Hashing) [19], kỹ thuật cho phép các tìm kiếm tương tự xấp xỉ trong thời gian tuyến tắnh, ựặc biệt kỹ thuật này phù hợp với các tiêu chuẩn của khoảng cách Hamming. Những thử nghiệm ban ựầu với LSH chỉ ra rằng các ựặc trưng ựược tắnh toán bởi hệ thống rất bền vững nên việc ựánh chỉ mục trực tiếp sử dụng các bảng băm truyền thống giúp giảm ựáng kể thời gian tìm kiếm mà không ảnh hưởng ựến ựộ chắnh xác tìm kiếm. Cách tiếp cận ựánh chỉ mục cho các ựặc trưng ựược mô tả như dưới ựây.
Tất cả các signature sẽ ựược băm thành một bảng băm chuẩn (khóa là ựặc trưng M-bit với M ựược chọn là 32). Những ựặc trưng trong khoảng cách
Hamming là 2 với ựặc trưng truy vấn ựược gọi là một hàng xóm gần (near- neighbor) và ựược ựưa ra bởi quá trình thăm dò toàn bộ. đầu tiên, hệ thống sẽ tìm trong bảng băm tất cả những ựặc trưng có khoảng cách Hamming là 0 với ựặc trưng truy vấn. Tiếp theo, hệ thống tiến hành thăm dò M lần với M là các giá trị có thể của ựặc trưng truy vấn khi thay giá trị của một bit nào ựó ựể tìm ra các ựặc trưng với khoảng cách Hamming là 1. Cuối cùng, hệ thống lặp lại quá trình thăm dò ựể tìm ra các ựặc trưng trong khoảng cách Hamming là 2. Cách tiếp cận này có vẻ như không hiệu quả, tuy nhiên, thực nghiệm chỉ ra rằng nó cho kết quả nhanh và chắnh xác hơn so với LSH bởi vì mỗi lần thăm dò là nhanh và các kết quả nhận ựược chắnh xác hơn là các kết quả xấp xỉ.
Một khi các hàng xóm gần này ựược lựa chọn, chúng ta sẽ có một tập các ứng cử viên cho bản nhạc truy vấn và hệ thống sẽ xác ựịnh bài hát nào phù hợp nhất với tập ựặc trưng truy vấn. Thay vì ựơn giản lựa chọn dựa vào số lượng ựặc trưng giống nhau, Y. Ke áp dụng phương pháp xác thực hình học ựã ựược sử dụng ựể nhận dạng ựối tượng dùng ựặc trưng ựịa phương trong [20]. Với mỗi bài hát trong tập các ứng cử viên, hệ thống kiểm tra liệu rằng các cặp ựặc trưng tương ứng của bài hát và bản nhạc truy vấn có phù hợp theo thời gian không. Công việc này ựược thực hiện khi sử dụng RANSAC [14] ựể lựa chọn ra một tập các dịch chuyển thời gian có thể và ựiểm số EM Ờ khả năng mà signature truy vấn thuộc cùng một bài hát với các signature ựược lựa chọn Ờ như là tiêu chuẩn về khoảng cách. Kết quả trả về của hệ thống cho mỗi truy vấn chắnh là bài hát có ựiểm số EM lớn nhất với ựiều kiện nó phải lớn hơn ngưỡng ựã chọn.