1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Luận văn thạc sĩ VNU UET tìm kiếm nhạc số dựa trên chuỗi đặc trưng âm thanh

67 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Cẩm Ngọc TÌM KIẾM NHẠC SỐ DỰA TRÊN CHUỖI ĐẶC TRƯNG ÂM THANH LUẬN VĂN THẠC SĨ HÀ NỘI – 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Phạm Cẩm Ngọc TÌM KIẾM NHẠC SỐ DỰA TRÊN CHUỖI ĐẶC TRƯNG ÂM THANH Ngành : Công nghệ thông tin Chuyên ngành : Hệ thống thông tin Mã số : 60 48 05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN HẢI CHÂU Hà Nội - 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com III MỤC LỤC LỜI CAM ðOAN I LỜI CẢM ƠN II DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT V DANH MỤC CÁC BẢNG .VI DANH MỤC CÁC HÌNH VẼ, ðỒ THỊ VII MỞ ðẦU CHƯƠNG 1.1 Giới thiệu 1.2 Một số ứng dụng chuỗi ñặc trưng 1.2.1 Giám sát phát 1.2.2 Các ứng dụng liên thông âm 1.2.3 Các lọc ứng dụng dùng chung file 1.2.4 Tự ñộng tổ chức thư viện âm nhạc 1.2.5 Một số ứng dụng khác 1.3 Các phương pháp xác ñịnh chuỗi ñặc trưng 1.3.1 Phương pháp cửa sổ gối 1.3.2 Phương pháp cửa sổ gối kết hợp học máy 11 1.3.3 Phương pháp DDA (Distortion Discriminant Analysis) 11 1.3.4 Phương pháp dựa wavelet 12 1.4 Ứng dụng kỹ thuật thị giác máy cho toán nhận dạng nhạc số 13 1.4.1 Biểu diễn hát dạng spectrogram 14 1.4.2 Tính tốn đặc trưng thuật tốn Boosting theo cặp (pairware boosting) 17 1.4.3 Học “Ocllusion Model” với thuật toán EM (Expectation Maximization) 20 1.4.4 1.5 Quá trình nhận dạng nhạc số 22 Tổng kết chương 23 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com IV CHƯƠNG 25 HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU POSTGRESQL 25 2.1 Vắn tắt lịch sử PostgreSQL 26 2.2 Kiến trúc PostgreSQL 27 2.3 Các hàm mở rộng ngôn ngữ C 29 2.3.1 Nạp ñộng (dynamic loading) 30 2.3.2 Các kiểu liệu sở C 31 2.3.3 Chuẩn gọi hàm theo phiên cho hàm C 36 2.3.4 Chuẩn gọi hàm phiên cho hàm C 39 2.3.5 Các quy tắc viết chương trình 43 2.3.6 Biên dịch liên kết tới hàm ñộng (Dynamically-Loaded Function) 44 2.3.7 2.4 Cơ sở cài ñặt (Build Infrastructure) mở rộng 46 Tổng kết chương 48 CHƯƠNG 49 3.1 Xây dựng sở liệu fingerprint 50 3.1.1 Thiết kế sở liệu hát PostgreSQL 50 3.1.2 Xây dựng hàm mở rộng PostgreSQL để tìm kiếm nhạc 52 3.2 Xây dựng tập liệu huấn luyện 53 3.3 Kết thực nghiệm 54 KẾT LUẬN 57 TÀI LIỆU THAM KHẢO 58 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com V DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT Ký hiệu/viết tắt Mô tả DDA Distortion Discriminant JDBC Java Database Connectivity LDA Linear Discriminant Analysis LPC Linear Predictive Coding MFCC Mel-Frequency Cepstral Coefficients ODBC Open Database Connectivity OPCA Oriented Principal Components Analysis PCA Principal Components Analysis UCB University of California at Berkeley LUT LOOK UP TABLE LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com VI DANH MỤC CÁC BẢNG Bảng Các kiểu liệu C kiểu ñược ñịnh nghĩa tương ứng SQL 35 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com VII DANH MỤC CÁC HÌNH VẼ, ðỒ THỊ Hình 1 Mơ hình trích chọn fingerprint Haitsma Hình (a) fingerprint block hát gốc, (b) fingerprint block hát sau ñã bị nén, (c) khác (a) (b) thể số bít lỗi màu đen (BER=0,078) 10 Hình Biểu diễn ảnh phổ liên tiếp hát khác Với hát, dịng đầu: ảnh phổ ban ñầu, dòng hai: ñộ lớn wavelet, dòng 3: 200 wavelet ñầu tiên 13 Hình Biểu diễn âm theo biên ñộ, tần số mã nhị phân 15 Hình Các đặc trưng hình chữ nhật biểu diễn mối quan hệ với cửa sổ tìm kiếm bao xung quanh 16 Hình So sánh phương pháp tính tốn đặc trưng Yanke (thuật tốn Pairwise Boosting) với thuật toán Haitsma Haitsma cải tiến 20 Hình Mơ hình phụ thuộc ñơn giản ñược giả lập hệ thống 22 Hình Kiến trúc PostgreSQL 28 Hình Tổ chức sở liệu theo LUT 51 Hình Mơ hình sở liệu 52 Hình 3 So sánh kết thực nghiệm với liệu huấn luyện khác nhau55 Hình So sánh thời gian tìm kiếm nhạc thu với hệ thống nhận dạng (Nhạc số) hệ thống Y.Ke (Y Ke) 56 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ðẦU Sự phát triển máy tính mạng Internet dẫn đến nhu cầu tìm kiếm Internet lớn Nếu trước người ta quan tâm đến tìm kiếm thơng tin, văn nhu cầu tìm kiếm liệu đa phương tiện (multimedia) cho mục đích giải trí khơng ngừng tăng lên Việc tìm kiếm nhạc theo phương pháp truyền thống ñược thực đơn giản cách nhập vào máy tìm kiếm thơng tin tiêu đề hát, tên tác giả, ca sĩ thể … ñể nhận ñược hát tương ứng Tuy nhiên, phương pháp tìm kiếm khơng đáp ứng nhu cầu tìm kiếm nhạc thực tế người sử dụng ñơn giản lắng nghe hát muốn biết tên hát Xây dựng hệ thống nhận dạng âm nhạc ñã thu hút ñược quan tâm nhà nghiên cứu tổ chức lớn ðã có nhiều báo cơng trình khoa học có liên quan cơng bố, có phương pháp dựa tính tốn so sánh ñặc trưng (còn gọi fingerprint hay local descriptor) nhạc mang lại hiệu Mục đích việc tính tốn đưa chế hiệu ñể ước lượng tương tự hai đối tượng multimedia: thay so sánh trực tiếp thân hai ñối tượng (thường lớn), ñơn giản người ta so sánh fingerprint chúng Trong hầu hết hệ thống sử dụng cơng nghệ fingerprint, fingerprint đối tượng multimedia với meta-data liên quan (tên tác giả hay tiêu ñề album) ñược lưu trữ sở liệu Các fingerprint đóng vai trị mục cho meta-data Meta-data ñối tượng multimedia chưa biết nhận cách tính tốn fingerprint đối tượng sử dụng chúng truy vấn sở liệu fingerprint/meta-data Có ưu điểm việc sử dụng fingerprint thay cho ñối tượng multimedia gốc: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com • Giảm thiểu nhu cầu nhớ/lưu trữ kích thước fingerprint tương đối nhỏ; • Việc so sánh đơn giản thơng tin dư thừa loại bỏ khỏi fingerprint; • Tìm kiếm hiệu mà tập liệu tìm kiếm nhỏ Một hệ thống fingerprint thông thường bao gồm hai thành phần chính: phương pháp để tính tốn fingerprint phương pháp tìm kiếm fingerprint có hiệu sở liệu fingerprint Mục tiêu hệ thống nhận dạng nhạc số dựa chuỗi ñặc trưng âm (audio fingerprint) từ thu âm ngắn ñã bị nhiễu, hệ thống cho phép tìm kiếm xác hát gốc thu âm Trong thực tế gặp tình sau, người sử dụng lắng nghe ca khúc qua radio xe hay bữa tiệc ðây hát nối tiếng mà ñã lâu khơng nghe nên qn lời hát tên tác giả hát Người gửi đoạn ngắn nhạc ñược thu âm qua ñiện thoại di ñộng tới server tìm kiếm nhạc số để nhận lại tin nhắn chứa thông tin liên quan tên hát, lời hát hay tác giả hát Cơng việc đặt thách thức lý sau đây: • Bản thu âm bị sai khác so với nhạc gốc ảnh hưởng nhiễu tín hiệu thiết bị thu âm thơng dụng (thường ñiện thoại di ñộng) hay ảnh hưởng tiếng ồn tạp âm xung quanh q trình thu âm • Bản thu âm đoạn nhạc thuộc hát gốc nên phương pháp tính tốn đặc trưng truyền thống nhạc thu âm thường cho kết chuỗi đặc trưng khác với chuỗi đặc trưng tính tốn tồn hát gốc LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com • Hệ thống nhận dạng nhạc số cần phải ñáp ứng ñược nhu cầu tìm kiếm thực tế cho kết nhanh xác sở liệu gồm hàng trăm nghìn hát Trên sở nghiên cứu gần ñây Haitsma Kaller [10, 11] Y Ke [5, 6] tiến hành xây dựng hệ thống nhận dạng nhạc số dựa chuỗi đặt trưng âm có tính ứng dụng thực tế sử dụng phương pháp trính rút đặc trưng cửa sổ gối kết hợp học máy Bên cạnh đó, luận văn tiến tới xây dựng liệu huấn luyện cho kết tìm kiếm với độ xác cao sở liệu meta-dada/fingerprint dựa hệ quản trị sở liệu PostgreSQL, ñồng thời luận văn kết hợp xây dựng hàm mở rộng ngơn ngữ C PostgreSQL để tìm kiếm hát truy vấn SQL ñơn giản Luận văn gồm ba chương, nội dung mơ tả ñây: Chương Chuỗi ñặc trưng âm ứng dụng tìm kiếm nhạc số giới thiệu chuỗi ñặc trưng âm thành ứng dụng nó, hệ thống nhận dạng âm Haitsma [10, 11] Y Ke [5, 6] Chương Hệ quản trị sở liệu PostgreSQL trình bày hệ quản trị sở liệu PostgreSQL cách viết hàm mở rộng ngôn ngữ C PostgreSQL Chương Xây dựng thử nghiệm hệ thống tìm kiếm nhạc số mơ tả việc xây dựng, thử nghiệm hệ thống kết ñạt ñược Phần kết luận tổng kết tóm tắt nội dung luận văn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 46 cc -bundle -flat_namespace -undefined suppress -o foo.so foo.o Tru64 UNIX PIC mặc ñịnh, lệnh biên dịch sau: cc -c foo.c ld -shared -expect_unresolved ’*’ -o foo.so foo.o Các shared library sau ñược tải vào PostgreSQL Khi xác ñịnh tên file cho câu lệnh CREATE FUNCTION, phải ñưa vào tên shared library thay tên object file 2.3.7 Cơ sở cài ñặt (Build Infrastructure) mở rộng Phân phối module mở rộng PostgreSQL gặp nhiều khó khăn việc xây dựng hệ thống cài đặt khả chuyển khơng dễ dàng Vì lí này, cài PostgreSQL cung cấp build infrastructure cho mở rộng, gọi PGXS, giúp đơn giản hóa biên dịch hàm mở rộng Tuy nhiên, PGXS khung làm việc vạn xây dựng hàm mở rộng, tập luật ñể tự ñộng biên dịch module mở rộng server ðể nhận gói phức tạp hơn, phải tự xây dựng hệ thống build infrastructure ðể sử dụng PGXS cho hàm mở rộng, phải viết makefile Trong makefile này, phải thiết lập giá trị cho vài biến, cuối thêm vào makefile PGXS Sau ví dụ xây dựng module mở rộng tên isbn_issn chứa shared library, SQL script file văn bản: MODULES = isbn_issn DATA_built = isbn_issn.sql DOCS = README.isbn_issn PGXS := $(shell pg_config pgxs) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 47 include $(PGXS) Hai dòng cuối giống tất makefile Trước ñấy, gán giá trị cho biến thêm luật make thơng dụng Các biến sau thiết lập: MODULES Danh sách shared objects ñược biên dịch từ file nguồn với trực hệ (stem) giống (không bao gồm hậu tố danh sách này) DATA Các file ñược cài ñặt prefix/share/contrib DATA_built Các file ñược biên dịch trước ñược cài ñặt prefix/share/contrib DOCS Các file ñược cài ñặt prefix/doc/contrib SCRIPTS Các file kịch (không phải nhị phân) ñược cài ñặt prefix/bin SCRIPTS_built Các file kịch (khơng phải nhị phân) biên dịch trước cài ñặt prefix/bin REGRESS Danh sách trường hợp kiểm tra hồi quy (regression test cases) khơng có hậu tố LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 48 PROGRAM Chương trình nhị phân biên dịch (danh sách object files OBJS) MODULE_big Một shared object ñược biên dịch (danh sách object files OBJS) Các biến sau thiết lập: EXTRA_CLEAN Các file mở rộng xóa make clean PG_CPPFLAGS Sẽ ñược thêm vào CPPFLAGS PG_LIBS Sẽ ñược thêm vào PROGRAM SHLIB_LINK Sẽ thêm vào MODULE_big Sau đó, ta cần ñặt tên makefile, chẳng hạn Makefile ñặt thư mục với file mở rộng Chúng ta sử dụng make để biên dịch make install ñể cài ñặt module 2.4 Tổng kết chương Chương ñã giới thiệu chung hệ quản trị sở liệu PostgreSQL cách xây dựng hàm mở rộng C PostgreSQL Chương trình bày cụ thể hàm mở rộng C ñã ñược xây dựng phép tìm kiếm hát truy vấn SQL ñơn giản LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 49 CHƯƠNG XÂY DỰNG VÀ THỬ NGHIỆM HỆ THỐNG TÌM KIẾM NHẠC SỐ Trong chương này, luận văn trình bày trình xây dựng kiểm thử hệ thống nhận dạng nhạc số từ xây dựng sở liệu hát ñến xây dựng tập liệu huấn luyện, xây dựng liệu kiểm thử xây dựng hàm mở rộng PostgreSQL cho phép thực tìm kiếm nhạc câu lệnh truy vấn SQL Khi cài ñặt hệ thống, việc biên dịch mã nguồn server xây dựng sở liệu, thu âm hát, chia hát thành ñoạn ngắn ñể tạo liệu huấn luyện… ñược thực hệ ñiều hành Unix/Linux ðể giúp cho việc thu âm hát ñể tạo liệu huấn luyện liệu kiểm thử ñược diễn tự động, chúng tơi xây dựng chương trình bash shell, kết hợp sử dụng số thư viện nguồn mở fftw3 [21], ffmpeg [22] mpg123 [23] Các chương trình mơ tả đây: • Chương trình batchrec: sử dụng thư viện ffmpeg mpg123 thực tự ñộng mở thu âm lại hát từ ñầu ñến kết thúc, ghi chúng vào thư mục hát ñã thu âm • Chương trình batchsplit: sử dụng thư viện ffmpeg ñể chia nhỏ hát thành ñoạn nhạc theo khoảng thời gian (thường 30 giây) Hệ thống gồm hai thành phần chính: chương trình giao diện người sử dùng (UI) viết Java 1.4 chương trình server nhận dạng hát (MIS) viết C++, hai giao tiếp với qua TCP/IP socket biên dịch máy hay máy khác Nếu khơng định, cổng mặc định 2000 Trong qúa trình nhận dạng hát, chương trình ứng dụng thực thu âm hát theo khoảng thời gian định trước, tính tốn đặc trưng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 50 cho nhạc thu âm gửi truy vấn chuỗi đặc trưng tới server Phía server thực tìm kiếm hát cho chuỗi đặc trưng truy vấn sở liệu fingerprint trả kết tên hát gốc cho chương trình ứng dụng 3.1 Xây dựng sở liệu fingerprint Từ tập hợp hát có sở liệu, hệ thống tính tốn đặc trưng cho hát lưu trữ sở liệu hát, trình ñược sử dụng nhận ñược nhạc truy vấn Trước tiên, hát theo ñịnh dạng WAV (Waveform Audio File Format) ñược biến ñổi thành dạng ñơn âm (mono) nén mẫu xuống 5512.5 KHz Tiếp theo đó, biến đổi Fourier ngắn áp dụng với kích thước cửa sổ 2048 mẫu (0,372 giây) độ dịch cửa sổ 64 mẫu (11,6 mili giây) với dải lượng khoảng từ 300 Hz ñế 2000 Hz ñược chia thành 33 khoảng ñều Miền tần số tương ứng với miền tần số dễ dàng truyền ñi sử dụng ñiện thoại di ñộng Cuối cùng, hệ thống sử dụng 32 lọc ñã ñược học ngưỡng tưng ứng ñể tạo ñặc trưng 32-bit cho khoảng 11,6 giây tín hiệu Một hát độ dài trung bình 200 giây cần 70Kb cho biểu diễn đặc trưng Trong thực tế, việc lưu trữ file nhạc theo ñịnh dạng WAV tốn tài nguyên nhớ, hệ thống ñã kết hợp sử dụng thư viện ffmpeg [22] cho phép chuyển ñổi hát từ ñịnh dạng MP3 thành ñịnh dạng WAV, từ ñó hệ thống tính tốn đặc trưng từ tập hát theo ñịnh dạng MP3 3.1.1 Thiết kế sở liệu hát PostgreSQL Cơng việc tìm kiếm sở liệu meta-data/fingerprint nhiệm vụ không dễ dàng Với sở liệu vừa phải, bao gồm 10.000 hát với ñộ dài trung bình phút, có sở liệu khoảng 250 triệu ñặc trưng ðể nhận dạng chuỗi ñặc trưng từ hát chưa biết, hệ thống phải tìm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 51 kiếm thực so sánh tồn 250 triệu đặc trưng này, cơng việc khó khăn tốn thời gian với máy tính đại Vì vậy, xây dựng chiến lược tìm kiếm cho hệ thống mình, chúng tơi giả thiết chuỗi đặc trưng truy vấn thuộc hát mà chuỗi ñặc trưng hát có chứa đặc trưng chuỗi ñặc trưng truy vấn Cơ sở liệu fingerprint (hình 3.1), đó, bao gồm bảng tra cứu (lookup table – LUT) với tất giá trị đặc trưng 32 bit đóng vai trị mục từ (entry) Mỗi entry trỏ ñến danh sách trỏ vị trí thực đặc trưng ứng với entry Trong hệ thống tìm kiếm thực tế mà tài nguyên nhớ giới hạn, bảng tra cứu với Ŷ%$ entry thường khơng có tính khả thi tính thực tế Bên cạnh đó, có entry khơng có đặc trưng tương ứng giới hạn số lượng hát sở liệu, dẫn đến bảng tra cứu thưa thớt Vì vậy, bảng băm thường sử dụng thay cho bảng tra cứu Hình Tổ chức sở liệu theo LUT LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 52 Cơ sở liệu hệ thống nhận dạng âm nhạc mơ tả hình 3.2 Quan hệ hát (song) bao gồm thuộc tính: định danh hát (song_id), tên hát (song_name), ñường dẫn thư mục hát (link), chuỗi ñặc trưng (fingerprint – ñược tổ chức dạng mảng giá trị nguyên dương 32 bit) ñộ dài chuỗi ñặc trưng Quan hệ ñặc trưng (sub_fingerprint) bao gồm thuộc tính định danh đặc trưng (subfingerprint_id), ñịnh danh hát mà ñặc trưng thuộc (song_id), vị trí đặc trưng chuỗi ñặc trưng (frame) giá trị ñặc trưng (sub_fingerprint) ðể tăng tốc độ tìm kiếm hệ thống, chúng tơi thực đánh mục cho thuộc tính song_id, frame sub_fingerprint Thực nghiệm cho thấy rằng, cách ñánh mục (ñặc biệt mục trường sub_fingerprint) giúp cải thiện đáng kể tốc độ tìm kiếm hệ thống Hình Mơ hình sở liệu 3.1.2 Xây dựng hàm mở rộng PostgreSQL để tìm kiếm nhạc Dựa phương pháp nhận dạng âm nhạc ñược ñưa Y Ke [5, 6] mục 1.4.4 chương Haitasma [10, 11], tiến hành xây dựng hai hàm mở rộng cần thiết cho trình nhận dạng: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 53 • Find_near_neighbour: Nhận ñầu vào chuỗi ñặc trưng truy vấn, hàm xét qua ñặc trưng nó, tìm kiếm sở liệu hát mà chuỗi đặc trưng tương ứng có chứa ñặc trưng Kết trả hàm tập hợp hát mà chuỗi ñặc trưng có chứa đặc trưng thuộc chuỗi đặc trưng truy vấn Bên cạnh đó, hàm cho biết vị trí đặc trưng chung hát trả Thực nghiệm ñã số lượng hát lớn việc phải tính tốn độ tương tự tập tất hát khơng đáp ứng thời gian tìm kiếm hệ thống Vì vậy, tiêu chuẩn lựa chọn theo thuật toán RANSAC [14] ñược sử dụng cho phép giới hạn lại số lượng hát tiềm Theo đó, gọi ˬ ñộ dài chuỗi ñặc trưng truy vấn (chuỗi bao gồm ˬ đặc trưng) hát lựa chọn chuỗi đặc trưng tương ứng có chứa ñặc trưng chuỗi ñặc $ trưng truy vấn • Search: Từ tập hợp hát vị trí đặc trưng chung hát trả hàm Find_near_neighbour, hàm thực tính tốn khoảng cách Hamming chuỗi ñặc trưng hát chuỗi ñặc trưng truy vấn ñể ñưa tỉ lệ bit lỗi (tỉ số số lượng bit sai khác chuỗi ñặc trưng truy vấn chuỗi ñặc trưng hát gốc ñộ dài chuỗi ñặc trưng truy vấn) Hàm cho kết trả tên hát có tỉ lệ bit lỗi nhỏ Hàm tìm kiếm áp dụng thuật tốn RANSAC giúp cải thiện đáng kể tốc ñộ tìm kiếm hệ thống Như vậy, với hai hàm mở rộng ñược cài ñặt trực tiếp server này, thực tìm kiếm hát gốc cho chuỗi ñặc trưng truy vấn ñó 3.2 Xây dựng tập liệu huấn luyện ðể xây dựng liệu huấn luyện cho việc tìm kiếm, trước hết cần phải có tập hát gốc tiến hành thu âm mơi trường có nhiều nhiễu Tập LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 54 hát ñã thu âm hát gốc sau chia thành snippet ngắn (30 giây cho snippet) Các snippet tương ứng sau thực trích rút đặc trưng ñược so sánh với ñể tạo thành tập liệu học Hệ thống sử dụng chương trình emtraining để tự động đọc danh sách snippet gốc snippet thu âm, tính tốn khóa cho snippet này, sau tiến hành xây dựng tập liệu học Trong trình xây dựng liệu huấn luyện, việc lựa chọn tập liệu học ñược phân loại theo tiêu chí thể loại nhạc ñể tạo nên liệu huấn luyện khác Các snippet dùng làm liệu học snippet truy vấn ñều ñược tiến hành thu âm qua micro chất lượng khơng tốt mơi trường có nhiều tiếng ồn gây nhiễu 3.3 Kết thực nghiệm Chúng tơi xây dựng hệ thống nhận dạng âm nhạc dựa chuỗi ñặc trưng với sở liệu gồm 597 hát tiến hành kiểm tra kết tìm kiếm hai tập liệu vào T1 T2 gồm snippet ñược lựa chọn ngẫu nhiên từ sở liệu 597 hát nói Tập liệu T1 bao gồm 956 snippet ñã ñược thu âm môi trường nhiều nhiễu (tiếng ồn ban ngày khu tập thể, tiếng rè loa micro chất lượng kém, tiếng gió tạo từ quạt máy); T2 bao gồm toàn snippet T1 ñã ñược tiền xử lý cách tăng biên độ tín hiệu khơng khử nhiễu Chúng tiến hành kiểm tra kết thực nghiệm ba liệu huấn luyện: liệu huấn luyện Yanke (gọi tắt YanKe) hai liệu huấn luyện tạo (gọi tắt HL1, HL2) Bộ liệu huấn luyện HL1 không chứa snippet tập liệu T1 T2, HL2 có số snippet nằm T1 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 55 Khi chạy chương ương tr trình, với truy vấn snippet ñãã thu âm mà chưa ch qua tiền ền xử lý (T1), độ xác việc ttìm kiếm tương ứng với liệu huấn luyện ện YanKe, HL1, HL2 llà 86.7%, 89.5% 90% ðồng ồng thời trình tr thực nghiệm, ệm, nhận thấy thực việc tiền xử lý nhạc truy vấn cách tăng thêm êm biên đđộ tín hiệu, độ xác kết tìm ìm kiếm ki đạt tăng lên đáng kể ể Kiểm tra với tập liệu T2, chúng tơi thu đđược ợc kết tương ứng sau 94.3% vvới ới liệu học Yan Ke, 98% với HL1 v HL2 98.00% 98.00% Biểu ñồ so sánh kết thực nghiệm với liệu huấn luyện khác 94.30% 100% 92% Độ xác 88% 86.70% 89.50% 90.00% 96% YanKe HL1 HL2 84% 80% T1 T2 Tập liệu tìm kiếm Hình 3 So sánh kết ết thực nghiệm với liệu huấn luyện khác Như vậy, ậy, liệu huấn luyện HL1 vvà HL2 ñều ều cho kết thực nghiệm tốt hẳn ẳn so với liệu học Yan Ke ñối với tập liệu vvào T1, T2 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 56 Bên cạnh đó, để tiến hành so sánh tốc độ tìm kiếm hệ thống nhận dạng với hệ thống nhận dạng Y Ke, sử dụng liệu kiểm tra gồm 100 nhạc thu âm với độ dài 30 giây tính tốn thời gian tìm kiếm liệu kiểm tra hai hệ thống Kết cho thấy bên cạnh số trường hợp đặc biệt (khơng tìm thấy nhạc gốc thu âm ñã bị méo sai khác nhiều so với nhạc gốc ảnh hưởng tạp âm) với thời gian tìm kiếm tương đối lâu hệ thống cho kết trả nhanh hẳn hệ thống Y Ke Theo thống kê, thời gian tìm kiếm trung bình hệ thống nhanh so với hệ thống Y Ke 3,6 lần 50 45 40 35 30 25 20 15 10 5 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 Nhạc số Y Ke Hình So sánh thời gian tìm kiếm nhạc thu với hệ thống nhận dạng (Nhạc số) hệ thống Y.Ke (Y Ke) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 57 KẾT LUẬN Luận văn ñã tiến hành nghiên cứu xây dựng hệ thống nhận dạng nhạc số dựa chuỗi đặt trưng âm có tính ứng dụng thực tế sử dụng phương pháp trính rút đặc trưng cửa sổ gối kết hợp thị giác máy Luận văn ñã ñạt ñược kết quả: • Giới thiệu phân tích phương pháp xác định chuỗi đặc trưng thời • Trình bày hệ quản trị sở liệu quan hệ PostgreSQL cách viết hàm mở rộng PostgreSQL • Xây dựng liệu huấn luyện cho kết tìm kiếm với độ xác cao hệ thống nhận dạng Y Ke sở liệu hát dựa hệ quản trị sở liệu PostgreSQL cho phép ñánh mục hiệu thuộc tính tìm kiếm • Luận văn ñã tiến hành xây dựng hàm mở rộng ngơn ngữ C PostgreSQL giúp tăng tốc độ tìm kiếm trung bình lên 3,6 lần so với hệ thống nhận dạng Y Ke LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 58 TÀI LIỆU THAM KHẢO [1] Shazam website [2] Relatable website [3] Musipedia website [4] Napster website [5] Y Ke, D Hoiem, R Sukthankar, Computer Vision for Music Identification, Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2005 [6] Y.Ke et al., Computer vision for music identification: server code, [7] S Baluja, M Covell, Content fingerprinting using wavelets, Proceedings of the 3rd European Conference on Visual Media Production (CVMP), 2006 [8] S Baluja, M Covell, Audio Fingerprinting: Combining Computer Vision & Data Stream Processing, Proceeding of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2007 [9] C Burges, J Platt, S Jana, Distortion Discriminant Analysis for Audio Fingerprinting, IEEE Transactions on Pattern Analysis and Machine Intelligencve, 11 (3), 2003 [10] J Haitsma, T Kalker, J Oostveen, Robust Audio Hashing for Content Identification, Content Based Multimedia Indexing 2001, Brescia, Italy, 2001 [11] J Haitsma, T Kalker, A Highly Robust Audio Fingerprinting System, Proceedings of the International Conference for Music Information Retrieval, 2002 [12] M Covell, S Baluja, Known-Audio Detection Using Waveprint: Spectrogram Fingerprinting By Wavelet Hashing, Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP), 2007 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 59 [13] P Viola andM Jones Rapid object detection using a boosted cascade of simple features In Proceedings of Computer Vision and Pattern Recognition, 2001 [14] M Fischler and R Bolles Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography Communications of the ACM, 24(6), 1981 [15] Allamanche E., Herre J., Hellmuth O., Bernhard Fröbach B and Cremer M., “AudioID: Towards Content-Based Identification of Audio Material”, 100th AES Convention, Amsterdam, The Netherlands, May 2001 [16] Fragoulis D., Rousopoulos G., Panagopoulos T., Alexiou C and Papaodysseus C., “On the Automated Recognition of Seriously Distorted Musical Recordings”, IEEE Transactions on Signal Processing, vol.49, no.4, p.898-908, April 2001 [17] Logan B., “Mel Frequency Cepstral Coefficients for Music Modeling”, Proceeding of the International Symposium on Music Information Retrieval (ISMIR) 2000, Plymouth, USA, October 2000 [18] Jacobs, Finkelstein, Salesin Fast Multiresolution Image Querying Proc SIGGRAPH, 1995 [19] P Indyk and R Motwani Approximate nearest neighbor towards removing the curse of dimensionality In Proceedings of Symposium on Theory of Computing, 1998 [20] D Lowe Object recognition from local scale-invariant features In Proceedings of International Conference on Computer Vision, 1999 [21] Fftw website [22] Ffmpeg website [23] Mpg123 website http://www.mpg123.de/ [24] PostgreSQL 8.0 [25] Beginning Databases with PostgreSQL: From Novice to Professional, Second Edition, by Nei Matthew and Richard Stones LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 60 [26] The comprehensive guide to building, programming, and administering PostgreSQL databases, Second Edition by Korry Douglas, Susan Douglas LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... ðẶC TRƯNG ÂM THANH VÀ ỨNG DỤNG TRONG TÌM KIẾM NHẠC SỐ 1.1 Giới thiệu Chuỗi ñặc trưng âm (audio fingerprint, acoustic fingerprint) tóm tắt chuỗi tín hiệu âm Chuỗi đặc trưng sử dụng để tìm kiếm. .. CÔNG NGHỆ Phạm Cẩm Ngọc TÌM KIẾM NHẠC SỐ DỰA TRÊN CHUỖI ĐẶC TRƯNG ÂM THANH Ngành : Công nghệ thông tin Chuyên ngành : Hệ thống thông tin Mã số : 60 48 05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA... chuỗi đặc trưng trở thành ñối tượng nghiên cứu ñược quan tâm, ñồng thời ứng dụng chuỗi ñặc trưng ngày phong phú Chuỗi đặc trưng, nói trên, tóm tắt chuỗi tín hiệu âm Như vậy, để có chuỗi đặc trưng

Ngày đăng: 05/12/2022, 17:50

Xem thêm:

HÌNH ẢNH LIÊN QUAN

Hình 1.1 Mơ hình trắch chọn fingerprint của Haitsma - Luận văn thạc sĩ VNU UET tìm kiếm nhạc số dựa trên chuỗi đặc trưng âm thanh
Hình 1.1 Mơ hình trắch chọn fingerprint của Haitsma (Trang 16)
Hình 1.2 (a) fingerprint block của bài hát gốc, (b) fingerprint block của bài hát sau khi ựã bị nén, (c) sự khác nhau giữa (a) và (b) thể hiện  trên số bắt lỗi màu ựen (BER=0,078) - Luận văn thạc sĩ VNU UET tìm kiếm nhạc số dựa trên chuỗi đặc trưng âm thanh
Hình 1.2 (a) fingerprint block của bài hát gốc, (b) fingerprint block của bài hát sau khi ựã bị nén, (c) sự khác nhau giữa (a) và (b) thể hiện trên số bắt lỗi màu ựen (BER=0,078) (Trang 17)
Hình 1.3 Biểu diễn của 4 ảnh phổ liên tiếp của 2 bài hát khác nhau. Với mỗi  bài  hát,  dòng  ựầu:  ảnh  phổ  ban  ựầu,  dòng  thứ  hai:  ựộ  lớn  wavelet,  dòng thứ ba: 200 wavelet ựầu tiên - Luận văn thạc sĩ VNU UET tìm kiếm nhạc số dựa trên chuỗi đặc trưng âm thanh
Hình 1.3 Biểu diễn của 4 ảnh phổ liên tiếp của 2 bài hát khác nhau. Với mỗi bài hát, dòng ựầu: ảnh phổ ban ựầu, dòng thứ hai: ựộ lớn wavelet, dòng thứ ba: 200 wavelet ựầu tiên (Trang 20)
Hình 1.4 Biểu diễn âm thanh theo biên ựộ, tần số và mã nhị phân - Luận văn thạc sĩ VNU UET tìm kiếm nhạc số dựa trên chuỗi đặc trưng âm thanh
Hình 1.4 Biểu diễn âm thanh theo biên ựộ, tần số và mã nhị phân (Trang 22)
Hình 1.5 Các ựặc trưng hình chữ nhật ựược biểu diễn trong mối quan hệ với các cửa sổ tìm kiếm bao xung quanh - Luận văn thạc sĩ VNU UET tìm kiếm nhạc số dựa trên chuỗi đặc trưng âm thanh
Hình 1.5 Các ựặc trưng hình chữ nhật ựược biểu diễn trong mối quan hệ với các cửa sổ tìm kiếm bao xung quanh (Trang 23)
Hình 1.6 So sánh phương pháp tắnh toán ựặc trưng của Yanke (thuật  toán  Pairwise  Boosting)  với  thuật  toán  của  Haitsma  và  Haitsma cải tiến - Luận văn thạc sĩ VNU UET tìm kiếm nhạc số dựa trên chuỗi đặc trưng âm thanh
Hình 1.6 So sánh phương pháp tắnh toán ựặc trưng của Yanke (thuật toán Pairwise Boosting) với thuật toán của Haitsma và Haitsma cải tiến (Trang 27)
Hình 1.7 Mơ hình phụ thuộc ựơn giản ựược giả lập bởi hệ thống - Luận văn thạc sĩ VNU UET tìm kiếm nhạc số dựa trên chuỗi đặc trưng âm thanh
Hình 1.7 Mơ hình phụ thuộc ựơn giản ựược giả lập bởi hệ thống (Trang 29)
Hình 2.1 Kiến trúc PostgreSQL - Luận văn thạc sĩ VNU UET tìm kiếm nhạc số dựa trên chuỗi đặc trưng âm thanh
Hình 2.1 Kiến trúc PostgreSQL (Trang 35)
Bảng 2.1 miêu tả các kiểu dữ liệu tron gC và kiểu dữ liệu trong SQL tương ứng khi viết các hàm C sử dụng kiểu dữ liệu có sẵn trong PostgreSQL - Luận văn thạc sĩ VNU UET tìm kiếm nhạc số dựa trên chuỗi đặc trưng âm thanh
Bảng 2.1 miêu tả các kiểu dữ liệu tron gC và kiểu dữ liệu trong SQL tương ứng khi viết các hàm C sử dụng kiểu dữ liệu có sẵn trong PostgreSQL (Trang 41)
Bảng 2.1 Các kiểu dữ liệu tron gC và các kiểu ựược ựịnh nghĩa tương ứng trong SQL  - Luận văn thạc sĩ VNU UET tìm kiếm nhạc số dựa trên chuỗi đặc trưng âm thanh
Bảng 2.1 Các kiểu dữ liệu tron gC và các kiểu ựược ựịnh nghĩa tương ứng trong SQL (Trang 42)
Hình 3.1 Tổ chức cơ sở dữ liệu theo LUT - Luận văn thạc sĩ VNU UET tìm kiếm nhạc số dựa trên chuỗi đặc trưng âm thanh
Hình 3.1 Tổ chức cơ sở dữ liệu theo LUT (Trang 58)
Cơ sở dữ liệu của hệ thống nhận dạng âm nhạc ựược mô tả như hình 3.2. Quan hệ bài hát (song) bao gồm các thuộc tắnh: ựịnh danh bài hát (song_id), tên  bài  hát  (song_name),  ựường  dẫn  thư  mục  bài  hát  (link),  chuỗi  ựặc  trưng  (fingerprint Ờ ựược  - Luận văn thạc sĩ VNU UET tìm kiếm nhạc số dựa trên chuỗi đặc trưng âm thanh
s ở dữ liệu của hệ thống nhận dạng âm nhạc ựược mô tả như hình 3.2. Quan hệ bài hát (song) bao gồm các thuộc tắnh: ựịnh danh bài hát (song_id), tên bài hát (song_name), ựường dẫn thư mục bài hát (link), chuỗi ựặc trưng (fingerprint Ờ ựược (Trang 59)
Hình 3.3 So sánh kết quả thực nghiệm với các bộ dữ liệu huấn nhau  - Luận văn thạc sĩ VNU UET tìm kiếm nhạc số dựa trên chuỗi đặc trưng âm thanh
Hình 3.3 So sánh kết quả thực nghiệm với các bộ dữ liệu huấn nhau (Trang 62)
Hình 3.4 So sánh thời gian tìm kiếm trên mỗi bản nhạc thu với hệ thống nhận - Luận văn thạc sĩ VNU UET tìm kiếm nhạc số dựa trên chuỗi đặc trưng âm thanh
Hình 3.4 So sánh thời gian tìm kiếm trên mỗi bản nhạc thu với hệ thống nhận (Trang 63)

Mục lục

    DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT

    DANH MỤC CÁC BẢNG

    DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

    CHƯƠNG 1. CHUỖI ĐẶC TRƯNG ÂM THANH VÀ ỨNG DỤNG TRONG TÌM KIẾM NHẠC SỐ

    1.2. Một số ứng dụng của chuỗi đặc trưng

    1.2.1. Giám sát phát thanh

    1.2.2. Các ứng dụng liên thông âm thanh

    1.2.3. Các bộ lọc trong ứng dụng dùng chung file

    1.2.4. Tự động tổ chức thư viện âm nhạc

    1.2.5. Một số ứng dụng khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w