2.2.1. Đặc trƣng của âm nhạc
Âm nhạc có một số đặc trƣng riêng biệt sau đây:
a, Đặc trưng bề ngoài : bao gồm - Kết cấu (Texture)
- Âm sắc (Timbre)
- Phối nhạc (Instrumentation)
b, Các thống kê về phân bố phổ, bao gồm:
- Trọng tâm (Centroid)
- Rolloff: thể hiện hình dạng phổ. Công thức xác định nhƣ sau:
N f R f f M f M 1 1 ] [ . 85 , 0 ] [
- Biến đổi phổ (Flux): công thức:
Ft = || Nt[f] - Nt-1[f] ||
Trong đó, Nt[f] là độ lớn thông thƣờng của cho mỗi khung
- Tốc độ vƣợt 0 (Zero Crossings): cung cấp đơn vị đo nhiễu (tiếng ồn) của tín hiệu.
- Năng lƣợng thấp (Low Energy)
2.2.2. Một số lớp âm nhạc
Ở mức mịn hơn, phân lớp âm nhạc có thể gồm rất nhiều lớp khác nhau, xem hình minh họa dƣới đây:
Hình 2.25 Minh họa phân lớp âm nhạc thông thường
Âm nhạc có hai loại cơ bản, đó là âm nhạc có cấu trúc (structure music) và âm nhạc trên cơ sở mẫu (sample- based music).
Âm nhạc có cấu trúc
Âm nhạc có cấu trúc đƣợc mô tả bằng các giải thuật hoặc tập hợp lệnh. Hầu hết âm nhạc có cấu trúc đều là MIDI. MIDI (Musical Instrument Digital Interface) đƣợc xem nhƣ một giải pháp nhằm chuẩn hóa các giao diện số trong âm nhạc. Bắt đầu từ những năm 1980, khi các công ty sản xuất âm nhạc điện tử có các hệ thống riêng để liên kết âm nhạc của họ nhƣng không hỗ trợ cho các hệ thống khác. Vì vậy, Hiệp hội các chuyên gia âm thanh đã giới thiệu và phát triển một chuẩn chung vào năm 1983, cung cấp đặc tả chung cho cả dữ liệu và phần cứng.
Music Classical Country Disco HipHop Jazz Rock Blue Reggae Pop Metal Bigband Cool Fusion Piano Quartet Swing Choir Orchestra Piano String Quartet
MIDI là một cách để truyền âm nhạc giữa các thiết bị. Ví dụ, nhờ thiết bị phần cứng đã đƣợc chuẩn hóa nên ta có thể dễ dàng kết nối bàn phím Roland của mình với bộ xử lý Yamaha để chúng có thể hiểu đƣợc lẫn nhau.
MIDI là một ngôn ngữ script. Nó "mã hóa" các sự kiện ... cho các sản phẩm của âm thanh. Ví dụ, một sự kiện MIDI có thể bao gồm các giá trị đối với cao độ của một nút đơn, âm lƣợng và thời hạn. Cấu trúc âm thanh MPEG-4 là một chuẩn mới đối với cấu trúc âm thanh (nhạc và các hiệu ứng âm thanh).
Chuẩn âm thanh cấu trúc này đƣợc phát triển để truyền tải, tổ hợp và sản xuất âm thanh. Nó không đƣợc thiết kế cho mục đích chỉ số hóa và truy tìm. Cấu trúc rõ ràng và mô tả các nốt nhạc trong khuôn mẫu này tạo ra tiến trình truy tìm dễ dàng vì không cần trích chọn đặc trƣng từ tín hiệu âm thanh.
Âm nhạc cấu trúc và hiệu ứng âm thanh rất phù hợp với loại truy vấn đòi hỏi đối sánh chính xác giữa câu truy vấn và các tệp âm thanh trong CSDL. Ngƣời sử dụng có thể chỉ ra trình tự các nốt nhạc làm câu truy vấn và nó tƣơng đối dễ tìm ra các tệp âm thanh cấu trúc chứa trình tự các nốt nhạc này. Mặc dù có thể tìm ra trình tự các nốt nhạc phù hợp hoàn toàn, nhƣng âm thanh sinh ra từ tệp có thể chƣa phải là cái mà ngƣời sử dụng mong đợi bởi vì cùng các tệp âm thanh cấu trúc có thể phát ra các âm khác nhau trên các thiết bị khác nhau.
Việc tìm kiếm âm nhạc hay hiệu ứng âm thanh tƣơng tự với câu truy vấn trên cơ sở tính tƣơng đồng thay cho đối sánh hoàn toàn là phức tạp ngay cả với âm nhạc cấu trúc và hiệu ứng âm thanh. Vấn đề chính là khó xác định tính tƣơng tự giữa hai trình tự nốt nhạc. Một khả năng là truy tìm âm nhạc trên cơ sở thay đổi độ cao (pitch) của trình tự nốt nhạc. Trong lƣợc đồ này, mỗi nốt nhạc (trừ nốt đầu tiên) trong câu truy vấn và trong các tệp CSDL âm thanh đƣợc chuyển đổi thành biến đổi độ cao so với nốt nhạc trƣớc đó. Ba giá trị có thể để thay đổi độ cao là U(up), D (down) và S (similar). Bằng cách này, trình tự các nốt nhạc đƣợc đặc trƣng bởi trình tự các ký tự. Sau đó nhiệm vụ truy tìm trở thành tiến trình đối sánh xâu. Lƣợc đồ này đƣợc đề xuất cho việc truy tìm âm thanh trên cơ sở mẫu trong đó các nốt nhạc phải đƣợc nhận biết trƣớc và các thay đổi độ cao phải đƣợc theo dõi bằng thuật toán
nào đó. Tuy nhiên lƣợc đồ này cũng có thể áp dụng cho truy tìm âm thanh có cấu trúc, trong đó đã có sẵn các nốt nhạc và thay đổi độ cao đƣợc dễ dàng thu nhận trên cơ sở scale của nốt nhạc.
Âm nhạc trên cơ sở mẫu
Hai tiệm cận chung đến chỉ số hóa và truy tìm âm nhạc trên cơ sở mẫu. Tiệm cận thứ nhất là trên cơ sở tập các đặc trƣng âm thanh trích chọn, tiệm cận thứ hai là trên cơ sở độ cao các nốt nhạc. Sau đây là mô tả khái quát hai tiệm cận này.
Truy tìm âm nhạc trên cơ sở tập các đặc trưng
Trong tiệm cận truy tìm âm nhạc này, tập các đặc trƣng âm học đƣợc trích chọn cho mỗi âm thanh (bao gồm cả câu truy vấn). Tập N đặc trƣng này đƣợc biểu diễn bởi N-véctơ. Tính tƣơng tự giữa câu truy vấn và mỗi đoạn âm thanh lƣu trữ đƣợc tính toán trên cơ sở khoảng cách gần nhất giữa các véctơ đặc trƣng tƣơng ứng của chúng. Tiệm cận này có thể áp dụng cho mọi loại âm thanh nhƣ âm nhạc, tiếng nói và hiệu ứng âm thanh.
Một ví dụ áp dụng tiệm cận này nhƣ sau: Sử dụng năm đặc trƣng (âm lƣợng – loudness, độ cao – pitch, độ chói – brightness, băng thông – bandwidth và hòa âm – harmonicity). Các đặc trƣng âm thanh này khác nhau theo thời gian và đƣợc tính toán cho từng frame. Mỗi đặc trƣng đƣợc biểu diễn thống kê bởi ba tham số: trung bình, sự khác biệt, mức độ tự tƣơng quan (autocorrelation). Khoảng cách Euclid hay Manhattan giữa các véctơ câu truy vấn và véctơ đặc trƣng của các đoạn âm nhạc lƣu trữ đƣợc sử dụng.
Tiệm cận này có thể sử dụng cho tự động phân lớp nhƣ đã nói trên đây. Nó dựa trên cơ sở giả sử rằng âm thanh nhận thức tƣơng tự đƣợc định vị gần nhau trong không gian đặc trƣng lựa chọn và âm thanh nhận thức khác nhau đƣợc định vị xa nhau trong không gian đặc trƣng lựa chọn. Giả sử này có thể không đúng, nó phụ thuộc vào các loại đặc trƣng lựa chọn biểu diễn âm thanh.
Truy tìm âm thanh trên cơ sở độ cao
Tiệm cận này tƣơng tự truy tìm âm nhạc cấu trúc trên cơ sở độ cao. Sự khác nhau chính là độ cao của từng nốt phải đƣợc trích chọn và ƣớc lƣợng trong trƣờng
hợp này. Trích chọn và ƣớc lƣợng độ cao đƣợc gọi chung là tracking độ cao. Tracking là dạng đơn giản của việc tự động chuyển đổi âm nhạc thành biểu diễn ký tự.
Ý tƣởng chính của tiệm cận này khá đơn giản. Mỗi nốt nhạc (bao gồm cả câu truy vấn) đƣợc biểu diễn bởi độ cao của nó. Vậy, một đoạn nhạc đƣợc biểu diễn nhƣ trình tự hay xâu độ cao. Quyết định truy tìm dựa trên cơ sở tính tƣơng tự giữa câu truy vấn và xâu ứng viên. Hai nhiệm vụ chính là tracking độ cao và đo tính tƣơng tự của xâu.
Độ cao nốt nhạc thông thƣờng đƣợc xác định bằng tần số của âm thanh. Để tìm độ cao cho mỗi nốt, đoạn âm nhạc ở đầu vào trƣớc hết phải chia đoạn thành các các nốt. Việc phân đoạn âm nhạc liên tục, đặc biệt với tiếng hát hay âm thanh o o là rất khó khăn. Vì vậy, thƣờng giả sử rằng âm nhạc đƣợc lƣu trữ nhƣ bảng tổng phổ (scores) trong CSDL. Độ cao của mỗi nốt biết trƣớc. Để tăng cƣờng hiệu năng tracking độ cao trên đầu vào truy vấn, đòi hỏi có đoạn nghỉ giữa các nốt liên tục.
2.2.3. Chỉ số hóa và truy tìm âm nhạc.
Tổng quát thì nghiên cứu và phát triển các kỹ thuật hiệu quả cho chỉ số hóa và truy tìm âm nhạc vẫn còn ở giai đoạn ban đầu. Có hai loại âm nhạc: cấu trúc (tổng hợp) và âm nhạc trên cơ sở mẫu.
Chỉ mục và truy tìm âm nhạc cấu trúc và các hiệu ứng âm thanh
Âm nhạc cấu trúc hay hiệu ứng âm thanh đƣợc biểu diễn bởi tập các lệnh hay thuật toán. Âm nhạc cấu trúc thƣờng thấy nhất là MIDI, nó biểu diễn âm nhạc nhƣ tập các nốt và lệnh điều khiển. Chuẩn mới cho âm thanh cấu trúc là MPEG-4 Structured Audio, nó biểu diễn âm thanh bằng thuật toán và ngôn ngữ điều khiển.
Chuẩn âm thanh cấu trúc này đƣợc phát triển để truyền tải, tổ hợp và sản xuất âm thanh. Nó không đƣợc thiết kế cho mục đích chỉ số hóa và truy tìm. Cấu trúc rõ ràng và mô tả các nốt trong khuôn mẫu này tạo ra tiến trình truy tìm dễ dàng vì không cần trích chọn đặc trƣng từ tín hiệu âm thanh.
Âm nhạc cấu trúc và hiệu ứng âm thanh rất phù hợp truy vấn đòi hỏi đối sánh chính xác giữa câu truy vấn và các tệp âm thanh trong CSDL. Ngƣời sử dụng
có thể chỉ ra trình tự các nốt làm câu truy vấn và nó tƣơng đối dễ tìm ra các tệp âm thanh cấu trúc chứa trình tự các nốt nhạc này. Mặc dù tìm ra trình tự các nốt phù hợp hoàn toàn, nhƣng âm thanh sinh ra từ tệp có thể chƣa phải là cái mà ngƣời sử dụng mong đợi bởi vì cùng các tệp âm thanh ấu trúc có thể phát ra các âm khác nhau trên các thiết bị khác nhau.
Việc tìm kiếm âm nhạc hay hiệu ứng âm thanh tƣơng tự với câu truy vấn trên cơ sở tính tƣơng đồng thay cho đối sánh hoàn toàn là phức tạp ngay cả với âm nhạc cấu trúc và hiệu ứng âm thanh. Vấn đề chính là khó xác định tính tƣơng tự giữa hai trình tự nốt nhạc. Một khả năng là truy tìm âm nhạc trên cơ sở thay đổi độ cao (pitch) của trình tự nốt. Trong lƣợc đồ này, mỗi nốt (trừ nốt đầu tiên) trong câu truy vấn và trong các tệp CSDL âm thanh đƣợc chuyển đổi thành biến đổi độ cao (pitch) so với nốt trƣớc đó. Ba giá trị có thể để thay đổi độ cao là U(up), D (down) và S (same hay similar). Bằng cách này, trình tự các nốt đƣợc đặc trƣng bởi trình tự các ký tự. Sau đó nhiệm vụ truy tìm trở thành tiến trình đối sánh xâu. Lƣợc đồ này đƣợc đề xuất cho việc truy tìm âm thanh trên cơ sở mẫu trong đó các nốt phải đƣợc nhận biết trƣớc và các thay đổi độ cao phải đƣợc theo dõi bằng thuật toán nào đó. Tuy nhiên lƣợc đồ này cũng có thể áp dụng cho truy tìm âm thanh có cấu trúc, trong đó đã có sẵn các nốt và thay đổi độ cao đƣợc dễ dàng đƣợc thu nhận trên cơ sở scale của nốt.
Chỉ mục và truy tìm âm nhạc trên cơ sở mẫu (sample)
Hai tiệm cận chung đến chỉ số hóa và truy tìm âm nhạc trên cơ sở mẫu. Tiệm cận thứ nhất là trên cơ sở tập các đặc trƣng âm thanh trích chọn, tiệm cận thứ hai là trên cơ sở độ cao các nốt nhạc. Sau đây là mô tả khái quát hai tiệm cận này.
o Truy tìm âm nhạc trên cơ sở tập các đặc trưng
Trong tiệm cận truy tìm âm nhạc này, tập các đặc trƣng âm học đƣợc trích chọn cho mỗi âm thanh (bao gồm cả câu truy vấn). Tập N đặc trƣng này đƣợc biểu diễn bởi N-véctơ. Tính tƣơng tự giữa câu truy vấn và mỗi đoạn âm thanh lƣu trữ đƣợc tính toán trên cơ sở khoảng cách gần nhất giữa các véctơ đặc trƣng tƣơng ứng
của chúng. Tiệm cận này có thể áp dụng cho mọi loại âm thanh nhƣ âm nhạc, tiếng nói và hiệu ứng âm thanh.
Một thí dụ áp dụng tiệm cận này nhƣ sau: Sử dụng năm đặc trƣng (âm lƣợng – loudness, độ cao – pitch, độ chói – brightness, băng thông – bandwidth và hòa âm – harmonicity). Các đặc trƣng âm thanh này khác nhau theo thời gian và đƣợc tính toán cho từng frame. Mỗi đặc trƣng đƣợc biểu diễn thống kê bởi ba tham số: trung bình, sự khác biệt, mức độ tự tƣơng quan (autocorrelation). Khoảng cách Euclid hay Manhattan giữa các véctơ câu truy vấn và véctơ đặc trƣng của các đoạn âm nhạc lƣu trữ đƣợc sử dụng.
Tiệm cận này có thể sử dụng cho tự động phân lớp nhƣ đã nói trên đây. Nó dựa trên cơ sở giả sử rằng âm thanh nhận thức tƣơng tự đƣợc định vị gần nhau trong không gian đặc trƣng lựa chọn và âm thanh nhận thức khác nhau đƣợc định vị xa nhau trong không gian đặc trƣng lựa chọn. Giả sử này có thể không đúng, nó phụ thuộc vào các đặc trƣng lựa chọn biểu diễn âm thanh.
o Truy tìm âm thanh trên cơ sở độ cao
Tiệm cận này tƣơng tự truy tìm âm nhạc cấu trúc trên cơ sở độ cao. Sự khác nhau chính là độ cao của từng nốt phải đƣợc trích chọn và ƣớc lƣợng trong trƣờng hợp này. Trích chọn và ƣớc lƣợng độ cao đƣợc gọi chung là tracking độ cao. Tracking là dạng đơn giản của việc tự động chuyển đổi âm nhạc thành biểu diễn ký tự.
Ý tƣởng chính của tiệm cận này khá đơn giản. Mỗi nốt nhạc (bao gồm cả câu truy vấn) đƣợc biểu diễn bởi độ cao của nó. Vậy, một đoạn nhạc đƣợc biểu diễn nhƣ trình tự hay xâu độ cao. Quyết định truy tìm dựa trên cơ sở tính tƣơng tự giữa câu truy vấn và xâu ứng viên. Hai nhiệm vụ chính là tracking độ cao và đo tính tƣơng tự của xâu.
Độ cao nốt nhạc thông thƣờng đƣợc xác định bằng tần số của âm thanh. Để tìm độ cao cho mỗi nốt, đoạn âm nhạc ở đầu vào trƣớc hết phải chia đoạn thành các các nốt. Việc phân đoạn âm nhạc liên tục, đặc bệt với tiếng hát hay tiếng kêu o o là rất khó khăn. Vì vậy, thƣờng giả sử rằng âm nhạc đƣợc lƣu trữ nhƣ bảng tổng phổ
(scores) trong CSDL. Độ cao của mỗi nốt biết trƣớc. Để tăng cƣờng hiệu năng tracking độ cao trên đầu vào truy vấn, đòi hỏi có đoạn nghỉ giữa các nốt liên tục.
Có hai phƣơng pháp biểu diễn độ cao nốt nhạc:
Phƣơng pháp 1: Mỗi độ cao trừ nốt nhạc thứ nhất đƣợc biểu diễn bởi hƣớng (thay đổi) độ cao so với độ cao trƣớc đó. Hƣớng độ cao nốt nhạc có thể là U(up), D(down) hay S(similar). Nhƣ vậy mỗi đoạn âm nhạc đƣợc biểu diễn bởi dãy ba ký tự.
Phƣơng pháp 2: Mỗi nốt đƣợc biểu diễn bởi giá trị trên cơ sở nốt tham chiếu chọn trƣớc. Giá trị đƣợc gán từ tập các giá trị độ cao chuẩn mà nó gần nhất tới độ cao ƣớc lƣợng. Nếu biểu diễn mỗi giá trị cho phép bởi ký tự thì mỗi đoạn nhạc sẽ đƣợc biểu diễn nhƣ xâu ký tự. Trong trƣờng hợp này, tổng số ký tự cho phép sẽ lớn hơn nhiều so với 3 (nếu áp dụng phƣơng pháp 1).
Sau khi biểu diễn các đoạn âm thanh bằng các xâu ký tự, giai đoạn cuối cùng là đối sánh hay tìm kiếm tƣơng tự giữa các xâu. Chú ý rằng với tiếng kêu o o (humming) không thể tìm chính xác âm thanh mong muốn, ngƣời sử dụng quan tâm đến tìm kiếm đoạn âm nhạc tƣơng tự thay cho chỉ một đoạn chính xác. Đối sánh xấp xỉ thay cho đối sánh chính xác. Vấn đề đối sánh xấp xỉ là đối sánh xâu có k không
phù hợp. Ngƣời sử dụng xác định biến k này. Khó khăn bao gồm tìm kiếm mọi hiện
thực (instance) xâu truy vấn Q=q1q2q3...qm trong xâu tham chiếu R=r1r2r3...rn sao cho có nhiều nhất k ký tự không phù hợp. Có nhiều thuật toán đƣợc phát triển giải quyết vấn đề đối sánh xâu xấp xỉ.
Hiệu năng truy tìm của các hệ thống cài đặt các thuật toán này phụ thuộc vào mức độ chính xác của tracking độ cao và tín hiệu o o đầu vào. Hiệu năng cao chỉ đạt đƣợc khi chèn đoạn nghỉ (pause) giữa các nốt liên tục.