Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 67 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
67
Dung lượng
1,18 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Cẩm Ngọc TÌM KIẾM NHẠC SỐ DỰA TRÊN CHUỖI ĐẶC TRƯNG ÂM THANH LUẬN VĂN THẠC SĨ HÀ NỘI – 2010 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Cẩm Ngọc TÌM KIẾM NHẠC SỐ DỰA TRÊN CHUỖI ĐẶC TRƯNG ÂM THANH Ngành : Công nghệ thông tin Chuyên ngành : Hệ thống thông tin Mã số : 60 48 05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN HẢI CHÂU Hà Nội - 2010 TIEU LUAN MOI download : skknchat@gmail.com III MỤC LỤC LỜI CAM ðOAN I LỜI CẢM ƠN II DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT V DANH MỤC CÁC BẢNG .VI DANH MỤC CÁC HÌNH VẼ, ðỒ THỊ VII MỞ ðẦU CHƯƠNG 1.1 Giới thiệu 1.2 Một số ứng dụng chuỗi ñặc trưng 1.2.1 Giám sát phát 1.2.2 Các ứng dụng liên thông âm 1.2.3 Các lọc ứng dụng dùng chung file 1.2.4 Tự ñộng tổ chức thư viện âm nhạc 1.2.5 Một số ứng dụng khác 1.3 Các phương pháp xác ñịnh chuỗi ñặc trưng 1.3.1 Phương pháp cửa sổ gối 1.3.2 Phương pháp cửa sổ gối kết hợp học máy 11 1.3.3 Phương pháp DDA (Distortion Discriminant Analysis) 11 1.3.4 Phương pháp dựa wavelet 12 1.4 Ứng dụng kỹ thuật thị giác máy cho toán nhận dạng nhạc số 13 1.4.1 Biểu diễn hát dạng spectrogram 14 1.4.2 Tính tốn ñặc trưng thuật toán Boosting theo cặp (pairware boosting) 17 1.4.3 Học “Ocllusion Model” với thuật toán EM (Expectation Maximization) 20 1.4.4 1.5 Quá trình nhận dạng nhạc số 22 Tổng kết chương 23 TIEU LUAN MOI download : skknchat@gmail.com IV CHƯƠNG 25 HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU POSTGRESQL 25 2.1 Vắn tắt lịch sử PostgreSQL 26 2.2 Kiến trúc PostgreSQL 27 2.3 Các hàm mở rộng ngôn ngữ C 29 2.3.1 Nạp ñộng (dynamic loading) 30 2.3.2 Các kiểu liệu sở C 31 2.3.3 Chuẩn gọi hàm theo phiên cho hàm C 36 2.3.4 Chuẩn gọi hàm phiên cho hàm C 39 2.3.5 Các quy tắc viết chương trình 43 2.3.6 Biên dịch liên kết tới hàm ñộng (Dynamically-Loaded Function) 44 2.3.7 2.4 Cơ sở cài ñặt (Build Infrastructure) mở rộng 46 Tổng kết chương 48 CHƯƠNG 49 3.1 Xây dựng sở liệu fingerprint 50 3.1.1 Thiết kế sở liệu hát PostgreSQL 50 3.1.2 Xây dựng hàm mở rộng PostgreSQL để tìm kiếm nhạc 52 3.2 Xây dựng tập liệu huấn luyện 53 3.3 Kết thực nghiệm 54 KẾT LUẬN 57 TÀI LIỆU THAM KHẢO 58 TIEU LUAN MOI download : skknchat@gmail.com V DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT Ký hiệu/viết tắt Mô tả DDA Distortion Discriminant JDBC Java Database Connectivity LDA Linear Discriminant Analysis LPC Linear Predictive Coding MFCC Mel-Frequency Cepstral Coefficients ODBC Open Database Connectivity OPCA Oriented Principal Components Analysis PCA Principal Components Analysis UCB University of California at Berkeley LUT LOOK UP TABLE TIEU LUAN MOI download : skknchat@gmail.com VI DANH MỤC CÁC BẢNG Bảng Các kiểu liệu C kiểu ñược ñịnh nghĩa tương ứng SQL 35 TIEU LUAN MOI download : skknchat@gmail.com VII DANH MỤC CÁC HÌNH VẼ, ðỒ THỊ Hình 1 Mơ hình trích chọn fingerprint Haitsma Hình (a) fingerprint block hát gốc, (b) fingerprint block hát sau ñã bị nén, (c) khác (a) (b) thể số bít lỗi màu đen (BER=0,078) 10 Hình Biểu diễn ảnh phổ liên tiếp hát khác Với hát, dịng đầu: ảnh phổ ban đầu, dịng hai: độ lớn wavelet, dịng 3: 200 wavelet 13 Hình Biểu diễn âm theo biên ñộ, tần số mã nhị phân 15 Hình Các ñặc trưng hình chữ nhật ñược biểu diễn mối quan hệ với cửa sổ tìm kiếm bao xung quanh 16 Hình So sánh phương pháp tính tốn đặc trưng Yanke (thuật tốn Pairwise Boosting) với thuật toán Haitsma Haitsma cải tiến 20 Hình Mơ hình phụ thuộc đơn giản ñược giả lập hệ thống 22 Hình Kiến trúc PostgreSQL 28 Hình Tổ chức sở liệu theo LUT 51 Hình Mơ hình sở liệu 52 Hình 3 So sánh kết thực nghiệm với liệu huấn luyện khác nhau55 Hình So sánh thời gian tìm kiếm nhạc thu với hệ thống nhận dạng (Nhạc số) hệ thống Y.Ke (Y Ke) 56 TIEU LUAN MOI download : skknchat@gmail.com MỞ ðẦU Sự phát triển máy tính mạng Internet dẫn đến nhu cầu tìm kiếm Internet lớn Nếu trước ñây người ta quan tâm đến tìm kiếm thơng tin, văn nhu cầu tìm kiếm liệu đa phương tiện (multimedia) cho mục đích giải trí khơng ngừng tăng lên Việc tìm kiếm nhạc theo phương pháp truyền thống ñược thực ñơn giản cách nhập vào máy tìm kiếm thơng tin tiêu ñề hát, tên tác giả, ca sĩ thể … ñể nhận ñược hát tương ứng Tuy nhiên, phương pháp tìm kiếm khơng đáp ứng nhu cầu tìm kiếm nhạc thực tế người sử dụng ñơn giản lắng nghe hát muốn biết tên hát Xây dựng hệ thống nhận dạng âm nhạc ñã thu hút ñược quan tâm nhà nghiên cứu tổ chức lớn ðã có nhiều báo cơng trình khoa học có liên quan cơng bố, có phương pháp dựa tính tốn so sánh đặc trưng (cịn gọi fingerprint hay local descriptor) nhạc mang lại hiệu Mục đích việc tính tốn đưa chế hiệu ñể ước lượng tương tự hai ñối tượng multimedia: thay so sánh trực tiếp thân hai ñối tượng (thường lớn), ñơn giản người ta so sánh fingerprint chúng Trong hầu hết hệ thống sử dụng công nghệ fingerprint, fingerprint ñối tượng multimedia với meta-data liên quan (tên tác giả hay tiêu ñề album) ñược lưu trữ sở liệu Các fingerprint đóng vai trị mục cho meta-data Meta-data đối tượng multimedia chưa biết nhận cách tính tốn fingerprint ñối tượng sử dụng chúng truy vấn sở liệu fingerprint/meta-data Có ưu ñiểm việc sử dụng fingerprint thay cho ñối tượng multimedia gốc: TIEU LUAN MOI download : skknchat@gmail.com • Giảm thiểu ñược nhu cầu nhớ/lưu trữ kích thước fingerprint tương đối nhỏ; • Việc so sánh đơn giản thơng tin dư thừa loại bỏ khỏi fingerprint; • Tìm kiếm hiệu mà tập liệu tìm kiếm nhỏ Một hệ thống fingerprint thông thường bao gồm hai thành phần chính: phương pháp để tính tốn fingerprint phương pháp tìm kiếm fingerprint có hiệu sở liệu fingerprint Mục tiêu hệ thống nhận dạng nhạc số dựa chuỗi ñặc trưng âm (audio fingerprint) từ thu âm ngắn ñã bị nhiễu, hệ thống cho phép tìm kiếm xác hát gốc thu âm Trong thực tế gặp tình sau, người sử dụng lắng nghe ca khúc qua radio xe hay bữa tiệc ðây hát nối tiếng mà ñã lâu không ñược nghe nên ñã quên lời hát tên tác giả hát Người gửi đoạn ngắn nhạc ñã ñược thu âm qua ñiện thoại di động tới server tìm kiếm nhạc số để nhận lại tin nhắn chứa thông tin liên quan tên hát, lời hát hay tác giả hát Cơng việc đặt thách thức lý sau đây: • Bản thu âm bị sai khác so với nhạc gốc ảnh hưởng nhiễu tín hiệu thiết bị thu âm thơng dụng (thường điện thoại di động) hay ảnh hưởng tiếng ồn tạp âm xung quanh q trình thu âm • Bản thu âm đoạn nhạc thuộc hát gốc nên phương pháp tính tốn đặc trưng truyền thống nhạc thu âm thường cho kết chuỗi ñặc trưng khác với chuỗi đặc trưng tính tốn tồn hát gốc TIEU LUAN MOI download : skknchat@gmail.com • Hệ thống nhận dạng nhạc số cần phải ñáp ứng ñược nhu cầu tìm kiếm thực tế cho kết nhanh xác sở liệu gồm hàng trăm nghìn hát Trên sở nghiên cứu gần ñây Haitsma Kaller [10, 11] Y Ke [5, 6] tiến hành xây dựng hệ thống nhận dạng nhạc số dựa chuỗi đặt trưng âm có tính ứng dụng thực tế sử dụng phương pháp trính rút đặc trưng cửa sổ gối kết hợp học máy Bên cạnh ñó, luận văn tiến tới xây dựng liệu huấn luyện cho kết tìm kiếm với độ xác cao sở liệu meta-dada/fingerprint dựa hệ quản trị sở liệu PostgreSQL, ñồng thời luận văn kết hợp xây dựng hàm mở rộng ngơn ngữ C PostgreSQL để tìm kiếm hát truy vấn SQL ñơn giản Luận văn gồm ba chương, nội dung ñược mô tả ñây: Chương Chuỗi ñặc trưng âm ứng dụng tìm kiếm nhạc số giới thiệu chuỗi ñặc trưng âm thành ứng dụng nó, hệ thống nhận dạng âm Haitsma [10, 11] Y Ke [5, 6] Chương Hệ quản trị sở liệu PostgreSQL trình bày hệ quản trị sở liệu PostgreSQL cách viết hàm mở rộng ngôn ngữ C PostgreSQL Chương Xây dựng thử nghiệm hệ thống tìm kiếm nhạc số mơ tả việc xây dựng, thử nghiệm hệ thống kết ñạt ñược Phần kết luận tổng kết tóm tắt nội dung luận văn TIEU LUAN MOI download : skknchat@gmail.com 46 cc -bundle -flat_namespace -undefined suppress -o foo.so foo.o Tru64 UNIX PIC mặc ñịnh, lệnh biên dịch sau: cc -c foo.c ld -shared -expect_unresolved ’*’ -o foo.so foo.o Các shared library sau ñược tải vào PostgreSQL Khi xác ñịnh tên file cho câu lệnh CREATE FUNCTION, phải ñưa vào tên shared library thay tên object file 2.3.7 Cơ sở cài ñặt (Build Infrastructure) mở rộng Phân phối module mở rộng PostgreSQL gặp nhiều khó khăn việc xây dựng hệ thống cài đặt khả chuyển khơng dễ dàng Vì lí này, cài PostgreSQL cung cấp build infrastructure cho mở rộng, gọi PGXS, giúp đơn giản hóa biên dịch hàm mở rộng Tuy nhiên, PGXS khung làm việc vạn xây dựng hàm mở rộng, tập luật ñể tự ñộng biên dịch module mở rộng server ðể nhận gói phức tạp hơn, phải tự xây dựng hệ thống build infrastructure ðể sử dụng PGXS cho hàm mở rộng, phải viết makefile Trong makefile này, phải thiết lập giá trị cho vài biến, cuối thêm vào makefile PGXS Sau ví dụ xây dựng module mở rộng tên isbn_issn chứa shared library, SQL script file văn bản: MODULES = isbn_issn DATA_built = isbn_issn.sql DOCS = README.isbn_issn PGXS := $(shell pg_config pgxs) TIEU LUAN MOI download : skknchat@gmail.com 47 include $(PGXS) Hai dòng cuối giống tất makefile Trước ñấy, gán giá trị cho biến thêm luật make thơng dụng Các biến sau ñược thiết lập: MODULES Danh sách shared objects ñược biên dịch từ file nguồn với trực hệ (stem) giống (không bao gồm hậu tố danh sách này) DATA Các file ñược cài ñặt prefix/share/contrib DATA_built Các file ñược biên dịch trước ñược cài ñặt prefix/share/contrib DOCS Các file ñược cài ñặt prefix/doc/contrib SCRIPTS Các file kịch (khơng phải nhị phân) cài đặt prefix/bin SCRIPTS_built Các file kịch (khơng phải nhị phân) ñược biên dịch trước cài ñặt prefix/bin REGRESS Danh sách trường hợp kiểm tra hồi quy (regression test cases) khơng có hậu tố TIEU LUAN MOI download : skknchat@gmail.com 48 PROGRAM Chương trình nhị phân ñược biên dịch (danh sách object files OBJS) MODULE_big Một shared object ñược biên dịch (danh sách object files OBJS) Các biến sau ñược thiết lập: EXTRA_CLEAN Các file mở rộng ñược xóa make clean PG_CPPFLAGS Sẽ ñược thêm vào CPPFLAGS PG_LIBS Sẽ ñược thêm vào PROGRAM SHLIB_LINK Sẽ ñược thêm vào MODULE_big Sau đó, ta cần đặt tên makefile, chẳng hạn Makefile đặt thư mục với file mở rộng Chúng ta sử dụng make ñể biên dịch make install ñể cài ñặt module 2.4 Tổng kết chương Chương ñã giới thiệu chung hệ quản trị sở liệu PostgreSQL cách xây dựng hàm mở rộng C PostgreSQL Chương trình bày cụ thể hàm mở rộng C ñã ñược xây dựng ñể cho phép tìm kiếm hát truy vấn SQL ñơn giản TIEU LUAN MOI download : skknchat@gmail.com 49 CHƯƠNG XÂY DỰNG VÀ THỬ NGHIỆM HỆ THỐNG TÌM KIẾM NHẠC SỐ Trong chương này, luận văn trình bày trình xây dựng kiểm thử hệ thống nhận dạng nhạc số từ xây dựng sở liệu hát ñến xây dựng tập liệu huấn luyện, xây dựng liệu kiểm thử xây dựng hàm mở rộng PostgreSQL cho phép thực tìm kiếm nhạc câu lệnh truy vấn SQL Khi cài ñặt hệ thống, việc biên dịch mã nguồn server xây dựng sở liệu, thu âm hát, chia hát thành ñoạn ngắn ñể tạo liệu huấn luyện… ñược thực hệ ñiều hành Unix/Linux ðể giúp cho việc thu âm hát ñể tạo liệu huấn luyện liệu kiểm thử diễn tự động, chúng tơi xây dựng chương trình bash shell, kết hợp sử dụng số thư viện nguồn mở fftw3 [21], ffmpeg [22] mpg123 [23] Các chương trình mơ tả đây: • Chương trình batchrec: sử dụng thư viện ffmpeg mpg123 thực tự ñộng mở thu âm lại hát từ ñầu ñến kết thúc, ghi chúng vào thư mục hát thu âm • Chương trình batchsplit: sử dụng thư viện ffmpeg ñể chia nhỏ hát thành ñoạn nhạc theo khoảng thời gian (thường 30 giây) Hệ thống gồm hai thành phần chính: chương trình giao diện người sử dùng (UI) viết Java 1.4 chương trình server nhận dạng hát (MIS) viết C++, hai giao tiếp với qua TCP/IP socket biên dịch máy hay máy khác Nếu khơng định, cổng mặc ñịnh ñây 2000 Trong qúa trình nhận dạng hát, chương trình ứng dụng thực thu âm hát theo khoảng thời gian ñược ñịnh trước, tính tốn đặc trưng TIEU LUAN MOI download : skknchat@gmail.com 50 cho nhạc thu âm gửi truy vấn chuỗi đặc trưng tới server Phía server thực tìm kiếm hát cho chuỗi đặc trưng truy vấn sở liệu fingerprint trả kết tên hát gốc cho chương trình ứng dụng 3.1 Xây dựng sở liệu fingerprint Từ tập hợp hát có sở liệu, hệ thống tính tốn đặc trưng cho hát lưu trữ sở liệu hát, trình sử dụng nhận nhạc truy vấn Trước tiên, hát theo ñịnh dạng WAV (Waveform Audio File Format) ñược biến ñổi thành dạng ñơn âm (mono) nén mẫu xuống 5512.5 KHz Tiếp theo đó, biến đổi Fourier ngắn áp dụng với kích thước cửa sổ 2048 mẫu (0,372 giây) ñộ dịch cửa sổ 64 mẫu (11,6 mili giây) với dải lượng khoảng từ 300 Hz ñế 2000 Hz ñược chia thành 33 khoảng ñều Miền tần số tương ứng với miền tần số dễ dàng truyền sử dụng điện thoại di ñộng Cuối cùng, hệ thống sử dụng 32 lọc ñã ñược học ngưỡng tưng ứng ñể tạo ñặc trưng 32-bit cho khoảng 11,6 giây tín hiệu Một hát độ dài trung bình 200 giây cần 70Kb cho biểu diễn ñặc trưng Trong thực tế, việc lưu trữ file nhạc theo ñịnh dạng WAV tốn tài nguyên nhớ, hệ thống ñã kết hợp sử dụng thư viện ffmpeg [22] cho phép chuyển ñổi hát từ ñịnh dạng MP3 thành ñịnh dạng WAV, từ hệ thống tính tốn đặc trưng từ tập hát theo ñịnh dạng MP3 3.1.1 Thiết kế sở liệu hát PostgreSQL Công việc tìm kiếm sở liệu meta-data/fingerprint nhiệm vụ không dễ dàng Với sở liệu vừa phải, bao gồm 10.000 hát với độ dài trung bình phút, có sở liệu khoảng 250 triệu ñặc trưng ðể nhận dạng chuỗi ñặc trưng từ hát chưa biết, hệ thống phải tìm TIEU LUAN MOI download : skknchat@gmail.com 51 kiếm thực so sánh tồn 250 triệu đặc trưng này, cơng việc khó khăn tốn thời gian với máy tính đại Vì vậy, xây dựng chiến lược tìm kiếm cho hệ thống mình, chúng tơi giả thiết chuỗi đặc trưng truy vấn thuộc hát mà chuỗi ñặc trưng hát có chứa đặc trưng chuỗi ñặc trưng truy vấn Cơ sở liệu fingerprint (hình 3.1), đó, bao gồm bảng tra cứu (lookup table – LUT) với tất giá trị đặc trưng 32 bit đóng vai trị mục từ (entry) Mỗi entry trỏ ñến danh sách trỏ vị trí thực đặc trưng ứng với entry Trong hệ thống tìm kiếm thực tế mà tài nguyên nhớ giới hạn, bảng tra cứu với Ŷ%$ entry thường khơng có tính khả thi tính thực tế Bên cạnh đó, có entry khơng có đặc trưng tương ứng giới hạn số lượng hát sở liệu, dẫn đến bảng tra cứu thưa thớt Vì vậy, bảng băm thường sử dụng thay cho bảng tra cứu Hình Tổ chức sở liệu theo LUT TIEU LUAN MOI download : skknchat@gmail.com 52 Cơ sở liệu hệ thống nhận dạng âm nhạc mơ tả hình 3.2 Quan hệ hát (song) bao gồm thuộc tính: định danh hát (song_id), tên hát (song_name), ñường dẫn thư mục hát (link), chuỗi ñặc trưng (fingerprint – ñược tổ chức dạng mảng giá trị nguyên dương 32 bit) ñộ dài chuỗi ñặc trưng Quan hệ ñặc trưng (sub_fingerprint) bao gồm thuộc tính định danh đặc trưng (subfingerprint_id), ñịnh danh hát mà ñặc trưng thuộc (song_id), vị trí đặc trưng chuỗi đặc trưng (frame) giá trị ñặc trưng (sub_fingerprint) ðể tăng tốc độ tìm kiếm hệ thống, chúng tơi thực đánh mục cho thuộc tính song_id, frame sub_fingerprint Thực nghiệm cho thấy rằng, cách ñánh mục (ñặc biệt mục trường sub_fingerprint) giúp cải thiện đáng kể tốc độ tìm kiếm hệ thống Hình Mơ hình sở liệu 3.1.2 Xây dựng hàm mở rộng PostgreSQL ñể tìm kiếm nhạc Dựa phương pháp nhận dạng âm nhạc ñược ñưa Y Ke [5, 6] mục 1.4.4 chương Haitasma [10, 11], tiến hành xây dựng hai hàm mở rộng cần thiết cho trình nhận dạng: TIEU LUAN MOI download : skknchat@gmail.com 53 • Find_near_neighbour: Nhận đầu vào chuỗi ñặc trưng truy vấn, hàm xét qua đặc trưng nó, tìm kiếm sở liệu hát mà chuỗi ñặc trưng tương ứng có chứa ñặc trưng Kết trả hàm tập hợp hát mà chuỗi đặc trưng có chứa ñặc trưng thuộc chuỗi ñặc trưng truy vấn Bên cạnh đó, hàm cho biết vị trí ñặc trưng chung hát trả Thực nghiệm ñã số lượng hát lớn việc phải tính tốn độ tương tự tập tất hát khơng đáp ứng thời gian tìm kiếm hệ thống Vì vậy, tiêu chuẩn lựa chọn theo thuật tốn RANSAC [14] sử dụng cho phép giới hạn lại số lượng hát tiềm Theo đó, gọi ˬ độ dài chuỗi đặc trưng truy vấn (chuỗi bao gồm ˬ ñặc trưng) hát lựa chọn chuỗi đặc trưng tương ứng có chứa đặc trưng chuỗi đặc $ trưng truy vấn • Search: Từ tập hợp hát vị trí đặc trưng chung hát trả hàm Find_near_neighbour, hàm thực tính tốn khoảng cách Hamming chuỗi đặc trưng hát chuỗi ñặc trưng truy vấn ñể ñưa tỉ lệ bit lỗi (tỉ số số lượng bit sai khác chuỗi ñặc trưng truy vấn chuỗi ñặc trưng hát gốc ñộ dài chuỗi ñặc trưng truy vấn) Hàm cho kết trả tên hát có tỉ lệ bit lỗi nhỏ Hàm tìm kiếm áp dụng thuật tốn RANSAC giúp cải thiện đáng kể tốc độ tìm kiếm hệ thống Như vậy, với hai hàm mở rộng ñược cài đặt trực tiếp server này, thực tìm kiếm hát gốc cho chuỗi đặc trưng truy vấn 3.2 Xây dựng tập liệu huấn luyện ðể xây dựng liệu huấn luyện cho việc tìm kiếm, trước hết cần phải có tập hát gốc tiến hành thu âm mơi trường có nhiều nhiễu Tập TIEU LUAN MOI download : skknchat@gmail.com 54 hát ñã thu âm hát gốc sau chia thành snippet ngắn (30 giây cho snippet) Các snippet tương ứng sau thực trích rút đặc trưng so sánh với ñể tạo thành tập liệu học Hệ thống sử dụng chương trình emtraining để tự động đọc danh sách snippet gốc snippet ñã thu âm, tính tốn khóa cho snippet này, sau tiến hành xây dựng tập liệu học Trong trình xây dựng liệu huấn luyện, việc lựa chọn tập liệu học phân loại theo tiêu chí thể loại nhạc ñể tạo nên liệu huấn luyện khác Các snippet dùng làm liệu học snippet truy vấn ñều ñược tiến hành thu âm qua micro chất lượng không tốt mơi trường có nhiều tiếng ồn gây nhiễu 3.3 Kết thực nghiệm Chúng tơi xây dựng hệ thống nhận dạng âm nhạc dựa chuỗi ñặc trưng với sở liệu gồm 597 hát tiến hành kiểm tra kết tìm kiếm hai tập liệu vào T1 T2 gồm snippet ñược lựa chọn ngẫu nhiên từ sở liệu 597 hát nói Tập liệu T1 bao gồm 956 snippet thu âm mơi trường nhiều nhiễu (tiếng ồn ban ngày khu tập thể, tiếng rè loa micro chất lượng kém, tiếng gió tạo từ quạt máy); T2 bao gồm tồn snippet T1 tiền xử lý cách tăng biên độ tín hiệu không khử nhiễu Chúng tiến hành kiểm tra kết thực nghiệm ba liệu huấn luyện: liệu huấn luyện Yanke (gọi tắt YanKe) hai liệu huấn luyện tạo (gọi tắt HL1, HL2) Bộ liệu huấn luyện HL1 không chứa snippet tập liệu T1 T2, HL2 có số snippet nằm T1 TIEU LUAN MOI download : skknchat@gmail.com 55 Khi chạy chương ương tr trình, với truy vấn snippet ñãã thu âm mà chưa ch qua tiền ền xử lý (T1), độ xác việc ttìm kiếm tương ứng với liệu huấn luyện ện YanKe, HL1, HL2 llà 86.7%, 89.5% 90% ðồng ồng thời trình tr thực nghiệm, ệm, nhận thấy thực việc tiền xử lý nhạc truy vấn cách tăng thêm êm biên đđộ tín hiệu, độ xác kết tìm ìm kiếm ki đạt tăng lên ñáng kể ể Kiểm tra với tập liệu T2, chúng tơi thu đđược ợc kết tương ứng sau 94.3% vvới ới liệu học Yan Ke, 98% với HL1 v HL2 98.00% 98.00% Biểu ñồ so sánh kết thực nghiệm với liệu huấn luyện khác 94.30% 100% 92% Độ xác 88% 86.70% 89.50% 90.00% 96% YanKe HL1 HL2 84% 80% T1 T2 Tập liệu tìm kiếm Hình 3 So sánh kết ết thực nghiệm với liệu huấn luyện khác Như vậy, ậy, liệu huấn luyện HL1 vvà HL2 ñều ều cho kết thực nghiệm tốt hẳn ẳn so với liệu học Yan Ke ñối với tập liệu vvào T1, T2 TIEU LUAN MOI download : skknchat@gmail.com 56 Bên cạnh đó, để tiến hành so sánh tốc độ tìm kiếm hệ thống nhận dạng với hệ thống nhận dạng Y Ke, sử dụng liệu kiểm tra gồm 100 nhạc thu âm với độ dài 30 giây tính tốn thời gian tìm kiếm liệu kiểm tra hai hệ thống Kết cho thấy bên cạnh số trường hợp đặc biệt (khơng tìm thấy nhạc gốc thu âm ñã bị méo sai khác nhiều so với nhạc gốc ảnh hưởng tạp âm) với thời gian tìm kiếm tương đối lâu hệ thống cho kết trả nhanh hẳn hệ thống Y Ke Theo thống kê, thời gian tìm kiếm trung bình hệ thống nhanh so với hệ thống Y Ke 3,6 lần 50 45 40 35 30 25 20 15 10 5 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 Nhạc số Y Ke Hình So sánh thời gian tìm kiếm nhạc thu với hệ thống nhận dạng (Nhạc số) hệ thống Y.Ke (Y Ke) TIEU LUAN MOI download : skknchat@gmail.com 57 KẾT LUẬN Luận văn ñã tiến hành nghiên cứu xây dựng hệ thống nhận dạng nhạc số dựa chuỗi đặt trưng âm có tính ứng dụng thực tế sử dụng phương pháp trính rút ñặc trưng cửa sổ gối kết hợp thị giác máy Luận văn đạt kết quả: • Giới thiệu phân tích phương pháp xác định chuỗi đặc trưng thời • Trình bày hệ quản trị sở liệu quan hệ PostgreSQL cách viết hàm mở rộng PostgreSQL • Xây dựng liệu huấn luyện cho kết tìm kiếm với độ xác cao hệ thống nhận dạng Y Ke sở liệu hát dựa hệ quản trị sở liệu PostgreSQL cho phép ñánh mục hiệu thuộc tính tìm kiếm • Luận văn tiến hành xây dựng hàm mở rộng ngôn ngữ C PostgreSQL giúp tăng tốc độ tìm kiếm trung bình lên 3,6 lần so với hệ thống nhận dạng Y Ke TIEU LUAN MOI download : skknchat@gmail.com 58 TÀI LIỆU THAM KHẢO [1] Shazam website [2] Relatable website [3] Musipedia website [4] Napster website [5] Y Ke, D Hoiem, R Sukthankar, Computer Vision for Music Identification, Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2005 [6] Y.Ke et al., Computer vision for music identification: server code, [7] S Baluja, M Covell, Content fingerprinting using wavelets, Proceedings of the 3rd European Conference on Visual Media Production (CVMP), 2006 [8] S Baluja, M Covell, Audio Fingerprinting: Combining Computer Vision & Data Stream Processing, Proceeding of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2007 [9] C Burges, J Platt, S Jana, Distortion Discriminant Analysis for Audio Fingerprinting, IEEE Transactions on Pattern Analysis and Machine Intelligencve, 11 (3), 2003 [10] J Haitsma, T Kalker, J Oostveen, Robust Audio Hashing for Content Identification, Content Based Multimedia Indexing 2001, Brescia, Italy, 2001 [11] J Haitsma, T Kalker, A Highly Robust Audio Fingerprinting System, Proceedings of the International Conference for Music Information Retrieval, 2002 [12] M Covell, S Baluja, Known-Audio Detection Using Waveprint: Spectrogram Fingerprinting By Wavelet Hashing, Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP), 2007 TIEU LUAN MOI download : skknchat@gmail.com 59 [13] P Viola andM Jones Rapid object detection using a boosted cascade of simple features In Proceedings of Computer Vision and Pattern Recognition, 2001 [14] M Fischler and R Bolles Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography Communications of the ACM, 24(6), 1981 [15] Allamanche E., Herre J., Hellmuth O., Bernhard Fröbach B and Cremer M., “AudioID: Towards Content-Based Identification of Audio Material”, 100th AES Convention, Amsterdam, The Netherlands, May 2001 [16] Fragoulis D., Rousopoulos G., Panagopoulos T., Alexiou C and Papaodysseus C., “On the Automated Recognition of Seriously Distorted Musical Recordings”, IEEE Transactions on Signal Processing, vol.49, no.4, p.898-908, April 2001 [17] Logan B., “Mel Frequency Cepstral Coefficients for Music Modeling”, Proceeding of the International Symposium on Music Information Retrieval (ISMIR) 2000, Plymouth, USA, October 2000 [18] Jacobs, Finkelstein, Salesin Fast Multiresolution Image Querying Proc SIGGRAPH, 1995 [19] P Indyk and R Motwani Approximate nearest neighbor towards removing the curse of dimensionality In Proceedings of Symposium on Theory of Computing, 1998 [20] D Lowe Object recognition from local scale-invariant features In Proceedings of International Conference on Computer Vision, 1999 [21] Fftw website [22] Ffmpeg website [23] Mpg123 website http://www.mpg123.de/ [24] PostgreSQL 8.0 [25] Beginning Databases with PostgreSQL: From Novice to Professional, Second Edition, by Nei Matthew and Richard Stones TIEU LUAN MOI download : skknchat@gmail.com 60 [26] The comprehensive guide to building, programming, and administering PostgreSQL databases, Second Edition by Korry Douglas, Susan Douglas TIEU LUAN MOI download : skknchat@gmail.com ... DỤNG TRONG TÌM KIẾM NHẠC SỐ 1.1 Giới thiệu Chuỗi ñặc trưng âm (audio fingerprint, acoustic fingerprint) tóm tắt chuỗi tín hiệu âm Chuỗi đặc trưng sử dụng để tìm kiếm mẫu âm phát mẫu âm tương tự... quan tâm, ñồng thời ứng dụng chuỗi ñặc trưng ngày phong phú Chuỗi đặc trưng, nói trên, tóm tắt chuỗi tín hiệu âm Như vậy, để có chuỗi đặc trưng chuỗi âm thanh, ta cần xây dựng hàm ˦ ánh xạ chuỗi. .. HỌC CÔNG NGHỆ Phạm Cẩm Ngọc TÌM KIẾM NHẠC SỐ DỰA TRÊN CHUỖI ĐẶC TRƯNG ÂM THANH Ngành : Công nghệ thông tin Chuyên ngành : Hệ thống thông tin Mã số : 60 48 05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA