Tổng quát thì nghiên cứu và phát triển các kỹ thuật hiệu quả cho chỉ số hóa và truy tìm âm nhạc vẫn còn ở giai đoạn ban đầu. Có hai loại âm nhạc: cấu trúc (tổng hợp) và âm nhạc trên cơ sở mẫu.
Chỉ mục và truy tìm âm nhạc cấu trúc và các hiệu ứng âm thanh
Âm nhạc cấu trúc hay hiệu ứng âm thanh đƣợc biểu diễn bởi tập các lệnh hay thuật toán. Âm nhạc cấu trúc thƣờng thấy nhất là MIDI, nó biểu diễn âm nhạc nhƣ tập các nốt và lệnh điều khiển. Chuẩn mới cho âm thanh cấu trúc là MPEG-4 Structured Audio, nó biểu diễn âm thanh bằng thuật toán và ngôn ngữ điều khiển.
Chuẩn âm thanh cấu trúc này đƣợc phát triển để truyền tải, tổ hợp và sản xuất âm thanh. Nó không đƣợc thiết kế cho mục đích chỉ số hóa và truy tìm. Cấu trúc rõ ràng và mô tả các nốt trong khuôn mẫu này tạo ra tiến trình truy tìm dễ dàng vì không cần trích chọn đặc trƣng từ tín hiệu âm thanh.
Âm nhạc cấu trúc và hiệu ứng âm thanh rất phù hợp truy vấn đòi hỏi đối sánh chính xác giữa câu truy vấn và các tệp âm thanh trong CSDL. Ngƣời sử dụng
có thể chỉ ra trình tự các nốt làm câu truy vấn và nó tƣơng đối dễ tìm ra các tệp âm thanh cấu trúc chứa trình tự các nốt nhạc này. Mặc dù tìm ra trình tự các nốt phù hợp hoàn toàn, nhƣng âm thanh sinh ra từ tệp có thể chƣa phải là cái mà ngƣời sử dụng mong đợi bởi vì cùng các tệp âm thanh ấu trúc có thể phát ra các âm khác nhau trên các thiết bị khác nhau.
Việc tìm kiếm âm nhạc hay hiệu ứng âm thanh tƣơng tự với câu truy vấn trên cơ sở tính tƣơng đồng thay cho đối sánh hoàn toàn là phức tạp ngay cả với âm nhạc cấu trúc và hiệu ứng âm thanh. Vấn đề chính là khó xác định tính tƣơng tự giữa hai trình tự nốt nhạc. Một khả năng là truy tìm âm nhạc trên cơ sở thay đổi độ cao (pitch) của trình tự nốt. Trong lƣợc đồ này, mỗi nốt (trừ nốt đầu tiên) trong câu truy vấn và trong các tệp CSDL âm thanh đƣợc chuyển đổi thành biến đổi độ cao (pitch) so với nốt trƣớc đó. Ba giá trị có thể để thay đổi độ cao là U(up), D (down) và S (same hay similar). Bằng cách này, trình tự các nốt đƣợc đặc trƣng bởi trình tự các ký tự. Sau đó nhiệm vụ truy tìm trở thành tiến trình đối sánh xâu. Lƣợc đồ này đƣợc đề xuất cho việc truy tìm âm thanh trên cơ sở mẫu trong đó các nốt phải đƣợc nhận biết trƣớc và các thay đổi độ cao phải đƣợc theo dõi bằng thuật toán nào đó. Tuy nhiên lƣợc đồ này cũng có thể áp dụng cho truy tìm âm thanh có cấu trúc, trong đó đã có sẵn các nốt và thay đổi độ cao đƣợc dễ dàng đƣợc thu nhận trên cơ sở scale của nốt.
Chỉ mục và truy tìm âm nhạc trên cơ sở mẫu (sample)
Hai tiệm cận chung đến chỉ số hóa và truy tìm âm nhạc trên cơ sở mẫu. Tiệm cận thứ nhất là trên cơ sở tập các đặc trƣng âm thanh trích chọn, tiệm cận thứ hai là trên cơ sở độ cao các nốt nhạc. Sau đây là mô tả khái quát hai tiệm cận này.
o Truy tìm âm nhạc trên cơ sở tập các đặc trưng
Trong tiệm cận truy tìm âm nhạc này, tập các đặc trƣng âm học đƣợc trích chọn cho mỗi âm thanh (bao gồm cả câu truy vấn). Tập N đặc trƣng này đƣợc biểu diễn bởi N-véctơ. Tính tƣơng tự giữa câu truy vấn và mỗi đoạn âm thanh lƣu trữ đƣợc tính toán trên cơ sở khoảng cách gần nhất giữa các véctơ đặc trƣng tƣơng ứng
của chúng. Tiệm cận này có thể áp dụng cho mọi loại âm thanh nhƣ âm nhạc, tiếng nói và hiệu ứng âm thanh.
Một thí dụ áp dụng tiệm cận này nhƣ sau: Sử dụng năm đặc trƣng (âm lƣợng – loudness, độ cao – pitch, độ chói – brightness, băng thông – bandwidth và hòa âm – harmonicity). Các đặc trƣng âm thanh này khác nhau theo thời gian và đƣợc tính toán cho từng frame. Mỗi đặc trƣng đƣợc biểu diễn thống kê bởi ba tham số: trung bình, sự khác biệt, mức độ tự tƣơng quan (autocorrelation). Khoảng cách Euclid hay Manhattan giữa các véctơ câu truy vấn và véctơ đặc trƣng của các đoạn âm nhạc lƣu trữ đƣợc sử dụng.
Tiệm cận này có thể sử dụng cho tự động phân lớp nhƣ đã nói trên đây. Nó dựa trên cơ sở giả sử rằng âm thanh nhận thức tƣơng tự đƣợc định vị gần nhau trong không gian đặc trƣng lựa chọn và âm thanh nhận thức khác nhau đƣợc định vị xa nhau trong không gian đặc trƣng lựa chọn. Giả sử này có thể không đúng, nó phụ thuộc vào các đặc trƣng lựa chọn biểu diễn âm thanh.
o Truy tìm âm thanh trên cơ sở độ cao
Tiệm cận này tƣơng tự truy tìm âm nhạc cấu trúc trên cơ sở độ cao. Sự khác nhau chính là độ cao của từng nốt phải đƣợc trích chọn và ƣớc lƣợng trong trƣờng hợp này. Trích chọn và ƣớc lƣợng độ cao đƣợc gọi chung là tracking độ cao. Tracking là dạng đơn giản của việc tự động chuyển đổi âm nhạc thành biểu diễn ký tự.
Ý tƣởng chính của tiệm cận này khá đơn giản. Mỗi nốt nhạc (bao gồm cả câu truy vấn) đƣợc biểu diễn bởi độ cao của nó. Vậy, một đoạn nhạc đƣợc biểu diễn nhƣ trình tự hay xâu độ cao. Quyết định truy tìm dựa trên cơ sở tính tƣơng tự giữa câu truy vấn và xâu ứng viên. Hai nhiệm vụ chính là tracking độ cao và đo tính tƣơng tự của xâu.
Độ cao nốt nhạc thông thƣờng đƣợc xác định bằng tần số của âm thanh. Để tìm độ cao cho mỗi nốt, đoạn âm nhạc ở đầu vào trƣớc hết phải chia đoạn thành các các nốt. Việc phân đoạn âm nhạc liên tục, đặc bệt với tiếng hát hay tiếng kêu o o là rất khó khăn. Vì vậy, thƣờng giả sử rằng âm nhạc đƣợc lƣu trữ nhƣ bảng tổng phổ
(scores) trong CSDL. Độ cao của mỗi nốt biết trƣớc. Để tăng cƣờng hiệu năng tracking độ cao trên đầu vào truy vấn, đòi hỏi có đoạn nghỉ giữa các nốt liên tục.
Có hai phƣơng pháp biểu diễn độ cao nốt nhạc:
Phƣơng pháp 1: Mỗi độ cao trừ nốt nhạc thứ nhất đƣợc biểu diễn bởi hƣớng (thay đổi) độ cao so với độ cao trƣớc đó. Hƣớng độ cao nốt nhạc có thể là U(up), D(down) hay S(similar). Nhƣ vậy mỗi đoạn âm nhạc đƣợc biểu diễn bởi dãy ba ký tự.
Phƣơng pháp 2: Mỗi nốt đƣợc biểu diễn bởi giá trị trên cơ sở nốt tham chiếu chọn trƣớc. Giá trị đƣợc gán từ tập các giá trị độ cao chuẩn mà nó gần nhất tới độ cao ƣớc lƣợng. Nếu biểu diễn mỗi giá trị cho phép bởi ký tự thì mỗi đoạn nhạc sẽ đƣợc biểu diễn nhƣ xâu ký tự. Trong trƣờng hợp này, tổng số ký tự cho phép sẽ lớn hơn nhiều so với 3 (nếu áp dụng phƣơng pháp 1).
Sau khi biểu diễn các đoạn âm thanh bằng các xâu ký tự, giai đoạn cuối cùng là đối sánh hay tìm kiếm tƣơng tự giữa các xâu. Chú ý rằng với tiếng kêu o o (humming) không thể tìm chính xác âm thanh mong muốn, ngƣời sử dụng quan tâm đến tìm kiếm đoạn âm nhạc tƣơng tự thay cho chỉ một đoạn chính xác. Đối sánh xấp xỉ thay cho đối sánh chính xác. Vấn đề đối sánh xấp xỉ là đối sánh xâu có k không
phù hợp. Ngƣời sử dụng xác định biến k này. Khó khăn bao gồm tìm kiếm mọi hiện
thực (instance) xâu truy vấn Q=q1q2q3...qm trong xâu tham chiếu R=r1r2r3...rn sao cho có nhiều nhất k ký tự không phù hợp. Có nhiều thuật toán đƣợc phát triển giải quyết vấn đề đối sánh xâu xấp xỉ.
Hiệu năng truy tìm của các hệ thống cài đặt các thuật toán này phụ thuộc vào mức độ chính xác của tracking độ cao và tín hiệu o o đầu vào. Hiệu năng cao chỉ đạt đƣợc khi chèn đoạn nghỉ (pause) giữa các nốt liên tục.
CHƢƠNG 3.
ỨNG DỤNG KỸ THUẬT TÌM KIẾM ÂM NHẠC TRONG GIẢNG DẠY
Trong Chƣơng I và Chƣơng II của luận văn đã đƣa ra cơ sở lý thuyết về multimedia và các thuật toán trích chọn đặc trƣng âm nhạc. Trong Chƣơng III này sẽ cài đặt chƣơng trình thử nghiệm để mô phỏng một số thuật toán đặc trƣng đó. Chƣơng trình đƣợc cài đặt bằng Matlab phiên bản R2009a trên nền HĐH Windows.