Chuỗi đặc trưng và ứng dụng trong tìm kiếm dữ liệu đa phương tiện

50 21 0
Chuỗi đặc trưng và ứng dụng trong tìm kiếm dữ liệu đa phương tiện

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Một hệ thống tìm kiếm âm nhạc dựa trên fingerprint xem xét cơ sở dữ liệu các bài hát như một tập các fingerprint, việc tìm kiếm thông tin về một bài hát sẽ tuơng ứng [r]

(1)

ĐẠI HỌC QUỐC GIA HÀ NỘI

CHUỖI ĐẶC TRƯNG VÀ ỨNG DỤNG TRONG TÌM KIẾM DỮ LIỆU ĐA

PHƯƠNG TIỆN

Mã số: QC.08.01

Chủ nhiệm đề tài: Nguyễn Hải Châu

Hà Nội - 2009

Đ Ạ I H Ọ C Q U Õ C G IA HÀ N Ộ I TRUNG TÂM THỔNG TIN THƯ VIỆN

(2)

M ục lục

B ả n g g iả i t h í c h c c c h ữ v iế t t ắ t D a n h s c h c n b ộ t h a m g ia t h ự c h iệ n đ ề t i

D a n h m ụ c b ả n g

1 T ó m t ắ t n h ữ n g k ế t q u ả n g h iê n c ứ u c h ín h c ủ a đ ề t i

1.1 Tên đề t i

1.2 Chủ trì đề t i

1.3 Những kết c h í n h

1.3.1 K ết khoa h ọ c

1.3.2 K ết phục vụ thực t ế

1.3.3 K ết đào t o

1.3.4 K ết nâng cao tiềm lực khoa học

1.3.5 T ình hình sử dụng kinh p h í

2 B o c o t ố n g k ế t 2.1 Đ ặ t vấn đ ề

2.2 Tổng quan tìn h hình nghiên cứu chuỗi đặc t r n g

2.3 Các phương pháp xác định chuỗi đặc t r n g

2.3.1 Các loại đặc trư ng chuỗi tín hiệu âm t h a n h

2.3.2 Phương pháp cửa sổ g ố i 10

2.3.3 Phương pháp cửa sổ gối kết hợp học m y 10

2.3.4 Phương pháp D D A 10

2.3.5 Phương pháp dựa trê n w a v e le t 11

2.4 M ột số ứng dụng chuỗi đặc t r n g 11

2.4.1 G iám sát p h t t h a n h 11

2.4.2 Các ứng dụng liên thông âm t h a n h 11

2.4.3 Các lọc ứng dụng dùng chung f i l e 12

2.4.4 T ự động tố chức th viện âm n h c 12

2.4.5 M ột số ứng dụng k h c 12

2.5 Mục tiêu nội dung nghiên cứu đề tà i 12

2.6 Dịa điểm , thời gian phương tiện nghiên c ứ u 12 2.7 K ết q u ả nghiên c ứ u

2.7.1 K ết khoa h ọ c

(3)

B ảng giải thích chữ v iế t tắ t

Bảng 1: Giải thích chữ viết tắ t C h ữ v iế t t ắ t G iả i th íc h

BFCC Bark Frequency C epstrum Coefficients DDA D istortion D iscrim inant Analysis FLAC Free Lossless Audio Codec LDA Linear Discrim inant Analysis

M FCC Mel-Frequency C epstrum Coefficients M PEG Movie P icture E xperts G roup

MP3 M PEG-1 Audio Layer

O PC A Oriented Principal C om ponents Analysis PC A Principal C om ponents Analysis

WAV Waveform Audio Form at

(4)

M ục lục

B ả n g g iả i t h í c h c c c h ữ v iế t t ắ t D a n h s c h c n b ộ t h a m g ia t h ự c h iệ n đ ề t i

D a n h m ụ c b ả n g

1 T ó m t ắ t n h ữ n g k ế t q u ả n g h iê n c ứ u c h ín h c ủ a đ ề t i

1.1 Tên đề t i

1.2 Chủ trì đề t i

1.3 Những kết c h í n h

1.3.1 K ết khoa h ọ c

1.3.2 K ết phục vụ thực t ế

1.3.3 K ết đào t o

1.3.4 K ết nâng cao tiềm lực khoa học

1.3.5 T ình hình sử dụng kinh p h í

2 B o c o t ổ n g k ế t 2.1 Đ ặt vấn đ ề -

2.2 Tổng quan tìn h hình nghiên cứu chuỗi đặc t r n g

2.3 Các phương pháp xác định chuỗi đặc t r n g

2.3.1 Các loại đặc trư ng chuỗi tín hiệu âm t h a n h

2.3.2 Phương pháp cửa sổ g ố i 10

2.3.3 Phương pháp cửa sổ gối kết hợp học m y 10

2.3.4 Phương pháp D D A 10

2.3.5 Phương pháp dựa trẽ n w a v e le t 11

2.4 M ột số ứng dụng chuỗi đặc t r n g 11

2.4.1 G iám sá t p h t t h a n h 11

2.4.2 Các ứng dụng liên thông âm t h a n h 11

2.4.3 Các lọc ứng dụng dùng chung f i l e 12

2.4.4 T ự động tổ chức th viện âm n h c 12

2.4.5 M ột số ứng dụng k h c 12

2.5 M ục tiêu nội dung nghiên cứu đề tà i 12

2.6 D ịa diểm, thời gian phương tiện nghiên c ứ u 12

2.7 K ết nghiên c ứ u 13

2.7.1 K ết khoa h ọ c 13

(5)

M ự c LỰC

2.7.2 K ết đào tạo 2.8 Thảo luận

2.9 Kết luận kiến nghị T i liệ u t h a m k h ả o

(6)

B ảng giải thích chữ v iết tắ t

Bảng 1: Giải thích chữ viết t ắ t C h ữ v iế t t ắ t G iả i th íc h

BFCC Bark Frequency C epstrura Coefficients DDA D istortion D iscrim inant Analysis FLAC Free Lossless Audio Codec LDA Linear Discrim inant Analysis

M FCC Mel-Frequency C epstrum Coefficients M PEG Movie P icture E xperts G roup

M P3 M PEG-1 Audio Layer

O PC A O riented Principal C om ponents Analysis PC A Principal Com ponents Analysis

(7)

D anh sách cán th a m gia thự c hiện đề tài

Bảng 2: Đ anh sách cán bộ, cộng tá c viên, học viên cao học sinh viên th a thực dề tài

S T T H ọ v t ê n H ọ c h m h ọ c v ị

C q u a n c ô n g t c

1 Nguyễn Hải C hâu (chủ nhiệm đề tài)

TS K hoa Công nghệ th ô n g

trư ờng Đ ại học Công ng Đ H Q G H N

2 Nguyễn Ngọc Hóa TS K hoa Cơng nghệ th n g

trư ờng Dại học Công ng ĐH Q G H N

3 Đỗ Thị M inh V iệt ThS C entre of Excellence, Nor gian U niversity of Science t Technology (N TN Ư ), Norwa P hạm Cẩm Ngọc CN K hoa Công nghệ thông

trường Dại hoc Công ng DHQGHN

5 Nguyễn T hị T hùy Linh CN K hoa Công nghệ th ô n g 1 trường Dại hoc Công ng

đ h q g h n

(8)

D anh m ục bảng

1 Giải thích chữ viết t ắ t D anh sách cán bộ, cộng tá c viên, học viên cao học sinh viên th am

(9)

Tóm tắ t kết n g h iên C1

chính đề tài

1.1 Tên đề tài

C h u ỗ i đ ặ c t r n g v ứ n g d ụ n g t r o n g t ìm k iế m d ữ liệ u đ a p h n g tiệ] (Acoustic fingerprint and its application in searching m ultim edia content)

M ã số: QC.0fs.01

1.2 Chủ trì đề tài

Người chủ trì: TS Nguyễn Hải Châu

Cơ quan: Trường Dại học Cóng nghệ Dại học Quốc gia H Nội Dịa chỉ: 144 Xuân Thủy, c ầ u Giấy, Hà Nội

Diện thoại: 04-37547813

1.3 N h ữ n g kết chính

1.3.1 K ết khoa học

• Chúng tơi nghiên cứu nhận dạng âm th a n h dựa trê n chuỗi đặc tru đề x u ất bước đề xây dựn£ m nt hệ thống nhân dạng tro n g thự c tế th nghiệm xâv dưns m ột sở liệu âm th an h , hu ấn luyện ( để trích rú t đặc trưng va th ủ nghiệm tìm kiếm dựa trê n tín hiệu âm vào từ micro với đỏ xác t.ốt Các két nói trê n đ ã trìn h tiế t 01 báo khoa học gửi đcing tạ p chí Tạp chí K hoa học, E Q uor cia Hà Nơi

• UI bân cáo chun de (technical report tổng quan ve rhuỗi đ r tr i th an h COI ứng dụng

(10)

1 T Ó M T Ắ T NHỮNG K E T q u ả n g h i ê n c ứ u c h í n h c ủ a d ề t i 7

1.3.2 K ết phục vụ thực tế

D ã hồn th n h chương trìn h th nghiệm tìm kiếm âm th a n h dự a trê n chuỗi đặc trư ng với độ xác cao Bộ chương trìn h có th ể tiếp tục p h t triể n để hoạt động môi trường web

1.3.3 K ết đào tạo

• D ã hướng dẫn tố t nghiệp 02 sinh viên bảo vệ th án g 6/2009 đề tà i tín h to án chuỗi đặc trư ng âm th an h tìm kiếm liệu đ a phương tiện

• Đang hướng dẫn 01 học viên cao học (là m ột th àn h viên thực đề tài) thực đề tài nghiên cứu liên quan đến chuỗi đặc trư ng âm th a n h tìm kiếm nhạc sở liệu đ a phương tiện

1.3.4 K ết nâng cao tiềm lực khoa học

Nghiên cứu th u ậ t toán, phương p háp ứng dụng chuỗi đặc trư ng, đ ã hướng dẫn sinh viên thực tậ p sinh khoa Công nghệ T hông tin trường Dại học Công nghệ vấn đề liên quan đến chuỗi đặc trư ng tìm kiếm liệu đa phương tiện

1.3.5 Tình hình sử dụng kinh phí

(11)

Báo cáo tổng kết

2

2.1 Đ ặt vấn đề

Chuỗi đặc trưng âm ( audio fingerprint acoustic fingerprint) - sau đâ; gọi t ắ t chuỗi đặc trưng - m ột tóm tăt m ột chi tín hiệu âm Chuỗi dặc trưng sử dụng để tìm kiếm m ẫu âm th a n h p h t cá m ẫu âm th an h tương tự m ột sở liệu âm th an h

Chuỗi đặc trưng có nhiều ứng dụng, có th ể kể đến: nh ận dạng bà h át, thu âm quảng cáo; giám sá t p h t th an h ; quản lý th viện hiệu ứn âm thanh; nhận dạng video v.v C hính chuỗi đặc trư n g đ ã trở th àn h đc tượng nghiên rứu quan tâm [l]-[27], đồng thời ứng dụng chuỗi đặ trư ng ngày phong phú [28]-[40]

2.2 Tổng quan tìn h hìn h n g h iên cứu chuỗi đặ<

trư ng

Chuỗi đặc trư ng âm th an h ( audio fin g erprint acoustic fingerprint) - sau đâ gọi t ắ t chuỗi đặc trưng - m ột b ản tóm tắt m ột chuỗi tín hiệu âm than? Chuỗi đặc trư ng sử dụng để tìm kiếm m ẫu âm th a n h p h t cá m ẫu âm th an h tương tự m ột liệu âm th anh

Chuỗi đặc trư ng có nhiều ứng dụng, tro n g có th ể kể đến: nhận dạng bỉ h át th u âm, quảng cáo: giám sá t p h t th an h ; quản lý th viện hiệu ứn âm thanh; nh ận dạng video v.v C hính chuỗi đặc trư n g đ ã trở th n h đ( tượng nghiên cứu quan tâm [l]-[27] đồng thời ứng dụng chuỗi dă trư n g ngàv phong phú Ị28]-[40]

Trong báo cáo chúng tơi trìn h bày m ột cách tổng quan phương phá nghiên cứu xác định, so sánh tìm kiếm chuỗi đặc trưng; m ột số ứng dụn đ ã đư<ir triển khai

( 'huõi đặc trư n g nói trê n , m ột tóm t ắ t m ột chuỗi tín hiệ ãm th an h Như có dưcic chuỗi đặc trư ng m ột chuỗi âm th a n h ta cần X£ dựr> - m i't ham / anh xa m ột r-huui bit A vào m ột chuỗi bít A Ị có độ dài nhỏ hơ] Dt sanh mư« tương tự hai chuỏi bit (tín hiệu âm th a n h ' ,4i A chúr

(12)

2 B Ả O CÁO TỔNG K Ế T 9

ta so sánh mức độ tương tự hai chuỗi đặc trư ng tương ứng A ìf A 2f ■ c ầ n lưu ý việc so sánh A i t A 2f so sánh nh au tu y ệt đối m ặt to n học m cần có tín h cảm quan Người nghe thường nhận dạng m ột nhạc p h t với chất lượng tín hiệu âm th a n h khác nhau, chẳng h n từ chất lượng âm th an h từ DVD tố t chất lượng âm th a n h p h t qua radio

Do cần có m ột số tiêu chí để đánh giá hàm / nói Sau m ột số tiê u chí thường sử dụng:

• T í n h b ề n v ữ n g : Chuỗi đặc trư ng phải th a y đổi tín hiệu âm th a n h bị suy giảm tín hiệu âm th a n h bị nhiễu, bị méo v.v T ính ch ất làm tăng độ tin cậy nhận dạng âm th a n h môi trư ờng thực, có nhiễu tạ p âm biên độ tín hiệu nhỏ

• T í n h t i n cậy: Chuỗi đặc trư ng cho khả nh ận dạng tro n g nhiều trường hợp

• Đ ộ lớ n c ủ a c h u ỗ i đ ặ c tr ứ n g : s ố lượng b it chuỗi đặc trư n g nhỏ giúp cho tốc độ tìm kiếm cải th iện giảm dung lượng lưu trữ

• Đ ộ m ịn : Độ dài tối thiểu chuỗi âm th a n h (theo đơn vị thời gian) để nhận dạng C hẳng hạn m ột số th u ậ t to án cần chuỗi tín hiệu âm th a n h dài từ 15 đến 30 giây để tín h chuỗi đặc trưng

• T ố c đ ộ t ì m k iế m v k h ả n ă n g m rộ n g : Đây yếu tố quan trọ n g tìm kiếm âm th a n h sở liệu lớn Tốc độ tìm kiếm (search speed) khả mở rộng (scalability) hai yếu tố quan tâm hàng đầu việc triển khai hệ thống tìm kiếm âm th anh

2.3 C ác phương pháp x ác địn h chuỗi đặc trư n g

2.3.1 Các loại đặc trưng chuỗi tín hiệu âm than h

Nguyên tắc chung cho việc xác định chuỗi đặc trư n g trích rú t đăc trư n g từ chuỗi tín hiệu âm th an h Các đặc trư n g m ột b ả n nhạc thường chia th n h hai loại chính: đặc trư n g ngữ nghĩa đặc trư ng phi ngữ nghĩa

Các đặc trư n g ngữ nghĩa thường có tín h trự c quan C hẳng hạn đặc trư n g

th ể loại (genre) âm nhạc, số nhịp m ột phút ( beats per m inute - bpm), điệu tính (mood) đặc trư n g ngữ nghĩa Do đặc trư ng loại m ang tín h to n học,

(13)

2 DÁO CÁO TỔXG K Ế T

nnat rnư ng pnap sư aụng c a t cua su - ; , , ất hiến trích rú t đặc trưng [15] Cửa sổ gối sử dụng dê I 11} n in a ie

hệ số dịch thời gian (tim e-shift) t r n g hợp c ũng a long

theo kiểu thời gian A - , „1

Biểu diễn phơ tín hiệu âm th an h xây dựng nhiêu each, cl hạn đo lượng M FCC (Mcl-FYequency C epstrum Coefficients) V t M ị l FVequency Cepstrum Coefficients) J H aitsm a cộng [15] (la sư t ụng ^ , xác định chuỗi đặc trưng TVong báo tác gia nạy, 33 l>ạng ta n sử dụng dải tần 300-2000 Hz mơi 11,6 mill giay lại có m ọt í đặc trưng (sub-fingerprint) tạo m ột frame 370 mill giâỵ D( frame gối nên chuỗi đặc trư ng biến đổi chậm theo thời gian Khi đo so sánh độ tương tự hai nhạc qui so sánh nhiều chuổi đặc trư ng Việc so sánh chuỗi đơn giản dự a vào việc tín h khoang cach Ham] chuỗi đặc trưng tương ứng Ưu điểm phương ph áp tính giản tốc độ tính tốn cao

2.3.3 Phương pháp cửa sổ gối kết hợp học máy

Phương pháp th ứ hai đưa gần đây, xem mở rộng củ a cửa sổ Y Ke cộng [19] sử dụng tả n g tương tự J H aitsm a [15] nhưi thêm tính học máy xác định đặc trư ng M ột đặc điểm quan trọng Y Ke đ ã biểu diễn tín hiệu âm th a n h 1-D m ột ảnh số biểu diễn t không gian hai chiều với trụ c thời g ia n -tầ n số

Kỹ th u ật học m áy Y Ke sử dụng [19] A daB oost, m ộ t kỹ th u ậ t biến ứng dụng thị giác máy, chẳng hạn nh p h t m ặt người t ảnh [26] Y Ke cộng đ ã sử dụng A daB oost cho hệ thống m ình họ đặc trư ng lượng trê n m ột số tầ n số chọn lọc theo thời gian Dộ dài vi số chọn thông qua th u ậ t to n A daB oost Áp dụng th u ậ t to n A dB oost, ( đặc trư ng lựa chọn, từ tạo chuỗi đặc trư n g tương ứng có 3' Khi có yêu cầu tìm kiếm nhạc, hệ th ố n g Y Ke [20] trư c h ết xử lý di âm th a n h vào tương tự [15] để tạ o chuỗi đặc trư n g Sau đó, tín h kh cách Ham m ing chuỗi đặc trư n g để tìm độ tương tự

2.3.4 Phương pháp D D A

Phương pháp th ứ ba [6] sử dụng phương p h p DDA (D istortion D iscrim inant 1

ysis) - m ột phương pháp trích rú t đặc trư n g xem bền vững với

- để xác định chuỗi đặc trưng Các đặc trư n g xác định DDA thường ta p cac đặc trư ng đượr đưa r a tro n g báo J H aitsm a [15] '

19' lạ.1 cho phcp tín h chi đặc trư n g củ a chuỗi tín hiệu dà

C AC phương pháp khác DDA dựa trê n m ột biến th ể phương pháp

(14)

2 BÁ O CÁO TỔNG K Ế T 11

(O PC A )

O PCA giả th iế t có m ột phiên tín hiệu bị méo c ủ a m âu huân luyện đê từ tìm đặc trư ng bị biến đổi thực bước tiền xử lý tín hiệu làm giảm nhiễu đến mức tối thiểu tăn g tối đ a mức tín hiệu Ngược lại, phương ph áp PC A (Principal C om ponents Analysis) tìm tậ p vector trự c giao để tă n g tối đ a biến đổi tín hiệu N hư O P C A tìm tậ p vector khơng trự c giao dùng để tín h to án nhiễu Thực nghiệm Burges cộng [6] cho th ấ y chuỗi đặc trư ng xác định phương pháp DDA bị biến đổi với vấn đề thời gian quan trọng bị biến đổi với loại nhiễu khơng có liệu

huấn luyện.

2.3.5 Phương pháp dựa wavelet

Phương pháp tác giả s B aluja M Covell (Google Inc.) p h t triể n [3], [4], [9] dựa trê n tiếp cận Y Ke [19]: áp dụng kỹ th u ậ t lĩnh vực thị giác máy vào việc xây dựng chuỗi đặc trư ng tiếp cận dự a trê n wavelet c Jacob [16] Phương pháp không sử dụng kỹ th u ậ t học m áy m dự a trẽ n tiếp cận wavelet để tăn g tốc độ tìm kiếm sở liệu đ a phương tiện lớn [16] Chuỗi đặc trư ng s B aluja M Covell đề x u ấ t dựa trê n công trìn h J H aitsm a [14], [15] có cải tiến nâng cao để đại diện cho m ẫu tín hiệu âm th a n h có độ dài lớn

2.4 M ột số ứng d ụ n g chuỗi đặc trư n g

2.4.1 Giám sát phát thanh

G iám sá t p h t th a n h (broadcast m onitoring) m ộ t ứng dụng quan trọng chuỗi đặc trư ng [1], [14], [23], [12], [39], [40] TYong giám sá t p h t th a n h truyền thống, quan giám sá t có nhân viên theo dõi trê n kênh p h t th a n h so sánh với chương trìn h p h t để p h t sai sót Các hệ giám sá t p h t th a n h dựa trê n chuỗi đặc trư ng thường có hai loại m áy chủ: M áy chủ giám s t m áy chủ tru n g tâm Máy chủ giám sá t đóng vai trò nhân viên giám s t p h t th a n h truyền thống, theo dõi kênh p h t th a n h báo cáo chuồi đặc trư n g cho m áy chủ trung tâm M áy chủ tru n g tâm sử dụng chuỗi đặc trư n g để tìm kiếm sở liệu sinh báo cáo chương trìn h p h t kênh bị giám sá t

2.4.2 Các ứng dụng liên th ôn g âm thanh

(15)

2 DÁO CÁO TỔXG K Ế T

hiện V.V gửi kết cho người dùng Dây ứng dụng r ấ t kho VI tí <

âm sau nhièu lần truyền bị suy giảm có nhiêu n Lieu [ - j , [■ jji [ *)■

2.4.3 Các lọc ứng dụng dùng chung file

Trong ứng dụng dùng chung file, chuỗi đặc trư ng sư dụng đe n h ạn c file âm nhạc có quyen không cho người dùng download file Na 2001 Napster [31] cài đ ặt lọc dựa trê n tên file lọc hoạt động khơi hiệu Do vào tháng 5/2001, N apster sử dụng lọc dự a trê n chuỗi đ trưng Relatable [301

2.4.4 T ự động tổ chức th viện âm nhạc

Chuỗi đặc trưng sử dụng vào việc tự động tơ chức th viện âm nhí Hiện MP3 khuôn dạng file thường sử dụng đé lưu trữ tro n g tl viện âm nhạc Các file MP3 tạ o từ nhiều nguồn khác n h a u siêu I liộu (m eta data) kèm theo tên tác giả, tác phẩm , người th ể hiện, năm th u ĩ không đầy đủ n h ấ t quán Khi chuỗi đặc trư ng sử dụ n g để ho thiộn thông tin nàv [28], [29], [39]

2.4.5 M ột số ứng dụng khác

Chi đặc trưng cịn có rấ t nhiều ứng dụng khác thực tiễn Trong lĩnh V truyền hình, chuỗi đặc trưng đượr sử dụng ứng dụng truyền hình tương tác [11] m khơng cần sử dụng thêm th iế t bị đặc biệt, tự độ p h t thay đoạn quảng cáo [5] K hác hiệt so với công nghệ chuỗi đặc trưng hướng tới ứng dụng đ a phương tiện với mục tiêu nhận dạng dối tượng m khơng cần đến thông tin siêu liệu me w aterm ark

2.5 M ục tiê u nội d u n g n g h iên cứu củ a đ ề tà

Mục tiêu đề tài nghiên cứu chuỗi đặc trư ng âm th an h : T ìm hiểu nghiên cứu sở lý thuyết, phương ph áp th u ậ t toán xác định, so sánh ( kiếm chuỗi đặc trư ng để xác định đư ợ r chuỗi tín hiệu tương tự Trên sớ tìm hiểu phương pháp, th u ậ t to án đ ã có chúng tơi d ã tiến hàn h xây di th nghiệm th àn h cơng ứng dụng tìm kiếm nhạc gốc dựa trê n chuỗi tín h âm th an h đầu vào th u từ micro, từ file âm th a n h với loại định di phong phú M P3, WAV, FLAC, V V

2.6 Đ ịa đ iêm , thời gian phư ơng tiệ n n g h iên C1

(16)

2 B Á O CÁO TỔN G K Ế T 13

đến th án g 6/2009 Trong trìn h nghiên cứu chúng tối đ ã sử dụng phương tiện nghiên cứu sau đây:

• K ết nối In tern et trường: dùng vào việc tả i p hần mềm, liệu thử , báo khoa học

• 01 m áy trạ m H P C P U Intel Core Duo E4500 2*2.2G H z/ 2MB C a c h e / C hipset Intel / 2GB D D R / 80GB SATA H D D / 16 in l C ardR eader /In te l GM A 3100 u p to l2 M B / D V D -RW / G igabit N IC / l x P C I Ex - dùng làm server sở liệu th ự c tìm kiếm âm th an h Máy trạ m tra n g bị theo dự án " Tăng cường lực nghiên cứu cho Phịng thí nghiệm chun đề Các Hệ

thống Thơng tin Tích hợp Công nghệ Phần m ề m " năm 2008-2009.

• 02 m áy tín h xách tay, 02 micro 01 loa (do cá n h ân tự tra n g bị)

2.7 K ết n gh iên cứu

2.7.1 K ết khoa học

Chúng tối đ ã đề x u ấ t bước để xây dựng m ột hệ thống nh ận dạng âm th a n h thực tế Chúng đ ã th nghiệm xây dựng m ột sở liệu âm th a n h , huấn luyện liệu để trích rú t đặc trư ng th nghiệm tìm kiếm dự a trẽ n tín hiệu âm th a n h vào từ micro với độ xác tố t Các kết nói trê n đ ã trìn h bày chi tiế t 01 báo khoa học gửi đãng tạ p chí Tạp chí K hoa học (Dại học Quốc gia H Nội) K ết nghiên cứu chúng tối cho th việc triển khai m ột ứng dụng nhận dạng nhạc qua tín hiệu th u từ micro hoàn to àn khả thi

2.7.2 K ết đào tạo

D ã có hai sinh viên thực khóa luận tố t nghiệp theo hướng nghiên cứu đề tài Hai khóa luận đ ã bảo vệ th n h công vào ngày /6 /2 0 K hoa Cõng nghệ T hống tin , trư ờng Đại học Công nghệ, Đại học Q uốc gia H Nội:

1 Bùi T h a n h X uân, Chuỗi đặc trưng âm ứng dụng tìm kiếm nhạc

số, K hóa lu ận tố t nghiệp Đại học, trường Dại học Cõng nghệ, 2009.

2 Vũ T hị Tư, Tìm kiếm liệu âm phương pháp QbH (Q uery by

H um m ing) ứng dụng, K hóa luận tố t nghiệp Đ ại học, trường Đại học Công

nghệ, 2009

2.8 T h ả o luận

C húng tối đ ã đ t kết sau tro n g đề tà i nghiên cứu QC.08.01: • C húng tõi đ ã nghiên cứu tổng quan chuỗi đặc trư n g âm th an h , phương

(17)

2 DÁO CÁO TỔNG K Ế T

nghicn cứu p hát triển; ứng dụng giam sa p tìm kiếm liệu đa phương tiện, tạo lọc cac ưng chung file V V

• Chúng tơi xây dựng ứng đụng tìm kiếm th nghiệm dựa m a nguoi Yan Ke [201, m ã nguồn thư viện biến đôi Fourier nhanh ( h t t p : /WWW th viện th ao tác với định dạng liệu video va audio ffm peg (h t t p : / / w w f f m p e g o r g ), chương trình ứng dụng mpgl23

(http://WWW m pgl23.de) dùng để p hát th a n h m ột số định dạng file Ị

WAV V V TVong ứng dụng chúng tơi đ ã chi tiẻ t hóa việc xảy dựng d i

huấn luyện phương pháp kiểm th kết Ưng dụng đ ã th ng cho kốt tố t với việc nhận nhận dạng th u âm nhí mẫu thu qua micro có độ dài 30 giây (Xem chi tiết: báo phụ lục theo)

• Dựa kết nêu trên, chúng tơi đ ã hồn th n h chuẩn t đăng m ột báo (Tạp chí Dại học Quốc gia H Nội) với nội dung liên đến tìm kiếm nhạc sỏ liệu dựa chuỗi đặc trư n g âm tl Ngồi chúng tơi hồn th àn h m ột báo cáo tổ n g quan chuỗ trưng âm th an h ứng dụng tìm kiếm âm nhạc (xem phụ lục báo cáo này)

2.9 K ết luận kiến nghị

(18)

Tài liệu tham khảo

[1] E Allam anche, J Herre, Hellm uth, B B ernhard Frobach, M C rem er, Au-

dioID: Towards Content-Based, Identification o f A udio M aterial, 100th AES

Convention, A m sterdam , T he N etherlands, 2001

[2] A Andoni and p Indyk, Near-optimal hashing algorithms fo r approxim ate near­

est neighbor in high dimensions, in 47th A nnual IE E E Sym posium on Founda­

tions of C om puter Science ( F c s ’06), 2006, pp 459-468

[3] Baluja, Covell, C ontent fingerprinting using wavelets, Proceedings of th e 3rd E uropean Conference on Visual M edia P roduction (C V M P), 2006

[4] S B aluja, M Covell, Audio Fingerprinting: C om bining C om puter Vision & I Data Stream Processing, Proceeding of the IE E E In tern atio n al Conference on

Acoustics, Speech and Signal Processing (IC A SSP), 2007

[5] M Covell, S B aluja, M Fink, Advertisem ent Replacem ent using Acoustic and

Visual Repetition, Proceedings of th e IE E E W orkshop on M ultim edia Signal

Processing, 2006

[6] c Burges, J P la tt, s Ja n a, D istortion D iscrim inant A nalysis fo r A udio F in ­

gerprinting, IE E E T ransactions on P a tte rn Analysis and M achine In te llig e n c e ,

11 (3), 2003

■[7] P Cano, E B atlle, T Kalker, J H aitsm a, A review o f algorithms fo r audio

fingerprinting, In W orkshop on M ultim edia Signal Processing, 2002.

[8] Y Cheng, M usic Database Retrieval Based on Spectral Sim ilarity, In tern atio n al Sym posium on M usic Inform ation Retrieval (ISM IR) 2001, Bloom ington, USA, O ctober 2001

[9] M Covell, S B aluja, K now n-A udio D etection Using W aveprint: Spectrogram

Fingerprinting B y Wavelet Hashing, Proceedings of th e IE E E Intern atio n al

Conference on Acoustics Speech and Signal Processing (IC A SSP), 2007 [10] A D uda, A N iirnberger, and s Stober, Towards query by h u m m in g /sin g in g on

audio databases, in Proceedings of th e 7th In te rn atio n a l Conference on Music

(19)

TÀI LIỆU T H A M KHẢO I

[111 M Fink, M Covell, s Baluja Social- and Interactive-Television Apphcatioj

Based on Real-Time Am bient-Audio Identification, Proceedings of EuroITN

2006

[12] D Fragoulis D., G Rousopoulos, T Panagopoulos, c Alexiou, c Pi paodysseus, On the Autom ated Recognition o f Seriously D istorted M usic

Recordings, IEEE Transactions on Signal Processing, (4), pp 898-908, 200

'13] A Gionis p Indyk R Motwani, Sim ilarity search in high dim ensions via hasi

mg Proceedings of the International Conference on Very Large D atabases, 199'

[14] J Haitsma, T Kalker, J Oostveen, Robust Audio Hashing f o r C ontent Ideni

fication, C ontent Based M ultim edia Indexing 2001, Brescia, Italy, 2001.

[15] J Haitsm a, T Kalker, A Highly Robust Audio F ingerprinting System , Procee< ings of the International Conference for Music Inform ation R etrieval, 2002 [16] c Jacobs, A Finkelstein, D Salesin, Fast M ultiresolution Im age Queryin

Proceedings of SIGG RA PH, 1995

[17] J.-S R Jang and M.-Y Gao, A query-by-singing system based on dynam ic pr

gramming, in Proceedings of the International W orkshop on Intelligent Systen

Resolutions, 2000

[18] J.-S R Jang, C.-L Hsu, and H.-R Lee, Continuous H M M and its enhanceme

fo r singing/hum m ing query retrieval, in Proceedings of th e th Internation

Conference on Music Inform ation Retrieval, 2005

[19] Y Ke, D Hoiem, R Sukthankar, C om puter Vision fo r M usic Jdentificatio Proceedings of the IEEE Com puter Society Conference on C om puter Visit and P a tte rn Recognition (C V PR ), 2005

[20] Y Ke et al., Com puter vision fo r m usic ' identification: server cot h t t p : //www c s emu e d u / y k e / m u s i c r e t r i e v a l / m u s i c r e t r - t a r gz, 2005

[21] K Lem strom, String M atching Techniques fo r M usic R etrieval, Ph.D thes University of Helsinki, 2000

l22] c Meek and w Birm ingham , Applications o f binary classification and adapti boosting to the query-by-hum ming problem, in Proceedings of th e 3rd Interr

tional Conference on Music Inform ation Retrieval, 2002

[23] H Neuschmied H Mayer, E B attle Identification o f A udio T itles on the J

tem et, Proceedings of the International Conference on Web Delivering of Mu

(20)

T À I LIỆU T H A M KHẢO 17

[24] J Oostveen, T Kalker, J H aitsm a, Feature E xtraction and a Database Strategy

fo r Video Fingerprinting, 5th International Conference on V isual Inform ation

Systems, Taipei, Taiwan, M arch 2002, published in R ecent advances in Visual Inform ation Systems, LNCS 2314, Springer, Berlin, pp 117-128

[25] R Typke, M usic Retrieval based on Melodic Sim ilarity, Ph.D thesis, Univer- siteit U trecht, 2007

[26] P Viola, M Jones, R obust Real-tim e O bject D etection Proceedings of the International Conference for C om puter Vision, 2001

[27] X Wu, M Li, J Yang, and Y Yan, A top-down approach to melody m atch

in pitch countour fo r query by hum m ing, in Proceedings of th e Intern atio n al

Conference of Chinese Spoken Language Processing, 2006 [28] A uditude website h t t p : //www a u d i t u d e com

[29] ID3M an website h t t p : //www id3m an com [30] R elatable website h t t p : //www r e l a t a b l e com [31] N apster website h t t p : //www n a p s t e r com

[32] W ebsite All M edia Guide h t ://w w w a llm e d ia g u id e c o m /la s s o / [33] h t t p : / / b u s i n e s s m u fin c o m /e n /p r o d u c ts /

m u f in - a u d io id - m u s ic - r e c o g n itio n - a n d - m u s ic - m o n ito r in g / [34] W ebsite G racenote h t t p : //www g r a c e n o t e com/

[35] W ebsite Last.fm h t t p : //www l a s t fm /

[36] W ebsite Music Brainz h t t p : / / m u s i c b r a i n z o r g / [37] W ebsite Shazam h t t p : / /www shazam com/

[38] W ebsite T unatic h t t p : / / w w w w i l d b i t s c o m / t u n a t i c / [39] Moodlogic website h t t p : //www m o o d lo g ic com [40] Y acast website h t t p : //www y a c a s t com

đ i h ọ c q u ố c G 'a Hà Nộ '

(21)

Phụ lục

Phụ luc gồm có:

• 01 báo đề tài gửi đăng Tạp chí Khoa học, Đại học Quốc gia H Nội • 01 báo cáo tổng quan chuỗi đặc trư ng âm th an h cán th a m gia đề

tài thực

• 02 bìa luận văn tốt nghiệp đại hoc năm 2009 thực theo hướng nghiên cứu đề tài

• Bản Dề cương Hợp đồng thực đề tài nghiên cứu đ ã phê duyệt • Bán cáo tóm tắ t kfit nghiên cứu đề tài Tiếng Anh

• Phiếu dăng ký kết nghiên cứu KHCN để tra n g cuối báo cáo tổng két

(22)

Xây dụ ng ứng dụng tìm kiếm âm nhạc dựa chuỗi đặc trung âm thanh

Phạm Cẩm Ngọc, Nguyễn Hải Châu

Khoa Công nghệ Thông tin,Trường Đại học Công nghệ Đại học quốc gia Hà Nội

Email: phamcamngoc@gmail.com, chaunh@vnu.edu.vn

Tóm tắt

Trong báo nghiên cứu, đề xuất xây dựng ứng dụng thừ nghiệm để tìm kiếm nhạc dựa ừên liệu tín hiệu âm thu từ micro Hiện cỏ nhiều phương pháp tìm kiếm âm nhạc dựa tín hiệu âm thanh, sử dụng chuỗi đặc trumg âm kết hợp với kỹ thuật học máy thống kê để xây dựng ứng dụng Trên sở nghiên cứu Yan Ke việc áp dụng kỹ thuật thị giác máy để giải vấn đề tìm kiếm âm nhạc, chúng tơi tập trung xây dựng liệu huấn luyện cho hệ thống, đạt kết khả quan so với liệu trước Yan Ke, với độ xác tìm kiếm lên tới 98%

1 Giói thiệu

Hiện nay, có nhiều phương pháp tiếp cận khác để giải tốn tìm kiếm âm nhạc Hai phương pháp điển hình ứng dụng rộng rãi thực tế tìm kiếm dựa chuỗi đặc trưng âm (fingerprint) cùa nhạc tìm kiểm dựa giai điệu hát Một hệ thống tìm kiếm âm nhạc dựa fingerprint xem xét sở liệu hát tập fingerprint, việc tìm kiếm thơng tin hát tuơng ứng với việc tìm kiếm fingerprint phù hợp tập fingerprint Khi sử dụng hệ thống tìm kiểm âm nhạc kiểu này, chẳng hạn Tunatic [10] hay Shazam [9], người sử dụng gửi nhạc thu âm qua micro từ máy tính cá nhân cho server nhận kết trả thông tin liên quan đến hát gốc

Hệ thống tìm kiếm dựa giai điệu hay cịn gọi Query by humming (Qbh) hệ thống phân loại nhạc theo tên hát, nghệ sỹ biểu diễn,

(23)

lác giả hát thể loại Hệ thống nhận đâu vào giai điẹu cua cac ban nhạc so sánh với giai điệu các nhạc khác sơ liẹu roi đưa ra

một danh sách sẳp thứ tự hát có giai điệu giong VƠI ban nhạc đo nhat

Một hệ Query by humming kiểu Musipedia [11] hay Midomi [12] cho phép người dùng nhập vào giai điệu hát theo nhiêu cach khac huýt sáo, sử dụng bàn phím piano ảo, vẽ nôt nhạc hay theo kiêu contour search

Từ thực tế kết hợp với việc nghiên cứu phương pháp tìm kiêm âm nhạc nghiên cứu phổ biến nay, đặc biệt phương phap chuoi đặc trưng âm kết hợp với học máy thông kê cùa Yan Ke [6], [7], chung tiến hành xây dựng hệ thống tìm kiêm âm nhạc dựa fingerprint Mỗi hát thêm vảo sở liệu, hệ thống lưu lại trường thông tin hát tên tác giả, ca sỹ thể hiện, thể loại nhạc đồng thời thực biến đổi Fourier tính tốn càn thiết để trích fingerprint tương ứng với hát lun trữ trường đặc biệt, trường fingerprint Khi người sử dụng gửi truy vấn nhạc thu âm tới hệ thống, trước tiên hệ thống thực phương pháp tiền xử lý lọc nhiễu để khử tiếng ồn, tăng âm lượng thu âm hát, sau tiến hành tính tốn fingerprint bàn nhạc đó, tim kiếm sở liệu fingerprint gần giống với đưa kết danh sách thứ tự hát gốc với thơng tin hữu ích kèm theo

2 Xây dựng th nghiệm hệ thống

Khi nhận nhạc thu âm mà nhiều lý khác bị nhiễu thu âm mơi trường có nhiều tiếng ồn, thu âm với micro chât lượng thâp, người sử dụng muốn hệ thống đưa cách nhanh nhạc thuộc hát gốc

Đẽ xây đựng hệ thống fingerprint đáp ứng yêu cầu trên, Yan Ke [7] chuyên đơi tốn cân giải qut sang tốn lĩnh vực khác có lời giải, thị giác máy Mới nghe qua, vấn đề phạm vi âm khơng có mơi liên hệ với lĩnh vực computer vision Trong lĩnh vực âm thanh, người ta cân phải xử lý tín hiệu 1-D theo thời gian, cịn computer vision, mục đích nhà phát triển đưa hình anh 2-D la) từ khung cảnh 3-D Tuy nhiên, động lực thúc đẩy hướng tiẽp cận này, gần đây, nhà nghiên cứu thường sử dụng hình

(24)

ảnh 2-D liên tục theo thời gian (spectrograms) phân tích âm giọng nói nhằm mục đích trực quan hóa hình ảnh

Khi cài đật hệ thống, việc biên dịch mã nguồn server xây dựng sở liệu, thu âm hát, chia hát thành snippet để tạo liệu huấn luyện thực hệ điều hành Linux, đồng thời sử dụng thêm sổ thư viện sẵn có fftw3 (fftw.org), ffmpeg (ffmpeg.org) m pgl23

Hệ thống xây dựng gồm hai thành phần: chương trình giao diện người sử dùng (UI) viết Java 1.4 chương trình server nhận dạng hát (MIS) viết C++ Phía UI thực gửi truy vấn tới MIS qua TCP/IP socket, hai dịch máy hay máy khác Nếu không định, cổng mặc định 2000 Để kiểm nghiệm hệ thống, cho UI tự động gửi liên tục truy vấn nhạc thu âm tới server, sau đỏ nhận kết trả tên hát gốc, tiến hành kiểm tra tính đắn ghi lại kết cho mục đích thống kê sau

2.1 Xây dụng sở liệu fingerprint

Hai chương trình sử dụng để xây dựng sờ liệu khóa makekeys builddb Chương trình nhận đầu vào danh sách file nhạc định dạng WAV, thực tính tốn khỏa (các fingerprint) cho hát, sau ghi khóa vào thư mục chung chứa khỏa Để

chạy được, chương trình cần thư viện cod ew av.cc - chuyển đổi file

WAV thành dạng bit sigproc.cc - chứa hầu hểt mã nguồn cho xử lý tín hiệu Chương trình thứ hai sừ dụng thư viện keypointdb.cc - quản lý sở liệu khóa directhash.cc - xây dựng bảng băm trực tiếp tất khóa sờ liệu khóa Chương trình đọc danh sách khóa xây dựng sở liệu từ tập hợp khóa

Tuy nhiên, thực tế, việc lưu trữ file nhạc định dạng WAV gặp nhiều khỏ khăn kích thước file nhạc lớn, kết hợp sử dụng thư viện ffmpeg cải tiến chương ưình sinh khóa để hệ thống tính khóa từ tập hát định dạng MP3

2.2 Xây dụng liệu huấn luyện cho việc tìm kiếm

Để xây dựng sở liệu cho việc tìm kiểm, trước hết cần phải cỏ tập hát thu âm mơi trường có nhiều nhiễu Tập

(25)

hát thu âm bải hát gốc cùa nỏ sau chia cac snippet ngắn (30 giây cho snippet) Các snippet tương ứng sau thực trích rút đặc trưng so sánh với đê tạo thành tạp dư liẹu học Chung xây dựng chương trình giúp cho việc xây dựng liẹu huan luyẹn thuận tiện

• Chương trình balchrec: sử dụng thư viện ffmpeg mpg 123 thực tự dộng mở thu âm lại hát từ đâu đên ket thuc, ghi chúng vào thư mục hát thu âm

• Chương trinh batchsplit: sử dụng thư viện ffmpeg đế chia nhỏ hát thành snippet theo khoảng thời gian (thường 30 giây)

• Chương trình emtraining: tự động đọc đanh sách snippet gốc snippet thu âm, tính tốn khóa cho snippet này, sau tiến hành xây dựng tập liệu học

Trong trình xây dựng liệu huấn luyện, lựa chợn tập liệu học dược phân loại theo sổ tiêu chí thể loại nhạc để tạo nên liệu huấn luyện khác Các snippet dùng làm liệu học snippet truy vấn thu âm qua micro chất lượng khơng tốt mơi trường có nhiều tiếng ồn gây nhiễu Chúng tiến hành chạy chương trình ứng dụng theo danh sách snippet thu âm để đưa đánh giá tổng quan trình học cùa hệ thống

3 Ket thực nghiệm

Chúng xây dựng hệ thống nhận đạn^ âm dựa chuỗi đặc trưng với sở liệu cỏ 597 hát tiến hành kiểm tra độ xác việc tim kiêm hai tập liệu vào T] T2 gồm snippet lựa chọn ngâu nhiên từ sở liệu 597 hát nói Tập liệu T | bao gồm 956 snippet thu âm môi trường nhiều nhiễu (tiếng ồn ban ngày khu tập thê, tiêng rè loa micro chất lượng tiếng gió tạo từ quạt máy); T? bao gơm tồn snippet T| tiền xừ lý cách tăng biên độ tín hiệu khơng khử nhiễu

Chúng tiên hành kiêm tra kêt thực nghiệm ba liệu huấn luyện: liệu huấn luyện cùa Yan Ke (gọi tắt YanKe) hai liệu huân luyện tạo (gọi tẳt H L|, HL2) Bộ liệu huấn luyện HL|

(26)

không chứa snippet tập liệu Ti T2, HL2 có sơ snippet nẳm Tị

Khi chạy chương trình, với truy vấn snippet thu âm mà chưa qua tiền xử lý (T |), độ xác việc tìm kiếm tương ứng với liệu huấn luyện YanKe, HL1, HL2 86.7%, 89.5% 90% Đồng thời trình thực nghiệm, nhận thấy thực việc tiền xử lý nhạc truy vẩn cách tăng thêm biên độ tín hiệu, độ xác kết tìm kiếm đạt tăng lên đáng kể Kiểm tra với tập liệu T2, thu kết tương ứng sau 94.3% với liệu học Yan Ke, 98% với HLi HL2 (hình 1)

Biểu đồ so sánh kết thực nghiệm vói dữ liệu huấn luyện khác nhau

□ Y anK e C3HL1 □ HL2

T I T2

Hình Biểu đồ so sánh kết thực nghiệm với liệu học

Như vậy, liệu huấn luyện HLi HL2 cho kết thực nghiệm tốt hẳn so với liệu học cùa Yan Ke tập liệu vào T |, T2 Trong tương lai, tiếp tục phát triển mờ rộng hệ thống, tiến hành cải tiến liệu huấn luyện cùa cách thêm liệu học, xác định biên độ tín hiệu phủ hợp với snippet huấn luyện để việc học có hiệu Bên cạnh đó, chúng tơi có biện pháp tiền xử lý truy vấn đầu vào lọc nhiễu, điều biên tín hiệu tới tần số thích hợp

4 Kết luận

Trong báo cáo chúng tơi trình bày phương pháp nhận dạng âm theo chuỗi đặc trưng âm (fingerprint) bước xây dựng hệ thống nhận dạng âm ứng dụng thực tế với độ xác

(27)

khả quan Trong xu hướng phát triển cùa ứng dụng tìm kiếm âm hướng nghiên cứu cỏ tính thời sự, ý nghĩa khoa học khả ứng dụng thực tiễn cao

Lời cảm ơn Cơng trình tài trợ phàn từ đề tài nghiên cứu khoa học mang mã sổ QC.08.01, Đại học Quôc gia Ha Nọi

Tài liệu tham khảo

[1] S Baluja, M Covell, Content fingerprinting using wavelets, Proceedings of the 3rd European Conference on Visual Media Production (CVMP), 2006 [2] S Baluja, M Covell, Audio Fingerprinting: Combining Computer Vision &

Data Stream Processing, Proceeding o f the IEEE International Conference on

Acoustics, Speech and Signal Processing (ICASSP), 2007

[3] c Burges, J Platt, s Jana, Distortion Discriminant Analysis f o r Audio

Fingerprinting, IEEE Transactions on Pattern Analysis and Machine

Intelligencve, 11 (3), 2003

[4] J Haitsma, T Kalker, J Oostveen, Robust Audio Hashing fo r Content

Identification, Content Based Multimedia Indexing 2001, Brescia, Italy, 2001.

[5] J Haitsma, T Kalker, A Highly Robust Audio Fingerprinting System, Proceedings of the International Conference for Music Information Retrieval,

2 0 2.

[6] Y Ke, D Hoiem, R Sukthankar, Computer Vision fo r Music Identification, Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2005

[7] Y Ke et al., Computer vision fo r music identification: server code,

http://w w w cs.cm u.edU /~yke/m usicretrieval/m usicretr-l.0.tar.gz, 20

[8] M Covell, S Baluja, Known-Audio Detection Using Waveprint:

Spectrogram Fingerprinting By Wavelet Hashing, Proceedings o f the IEEE

International Conference on Acoustics, Speech and Signal Processing(ICASSP), 2007

[9] Website Shazam http:, www.shazam.com/

[10] Website Tunatic http- www.wildbits.com/tunatic-[11] Website Musipedia http: www.musinedia.nrp,

[12] W ebsite M idomi littp: WWW midom i.com /

(28)

Chuỗi đặc trưng âm ứng dụng tìm kiếm liệu đa

phương tiện

Nguyễn Hải Châu Khoa Công nghệ thông tin

Trường Dại học Công nghệ, Dại học Quốc gia Hà Nội

Tóm t ắ t

Trong báo cáo này, chúng tơi trình bày chuỗi đặc trưng âm (audio fingerprint): Các khái niệm, phương pháp xác định tìm kiếm, so sánh chuỗi đặc trưng âm để tìm mức độ tương tự chuỗi tín hiệu âm lĩnh vực ứng dụng phong phú chuỗi đặc trưng âm

1 M đầu

Chuỗi đặc trư n g âm th a n h ( audio fingerprint acoustic fingerprint) - sau đây gọi t ắ t chuỗi đặc trư ng - m ột tóm tắt m ột chuỗi tín hiệu âm th an h Chuỗi đặc trư n g sử đụng để tìm kiếm m ẫu âm th a n h p h t m ẫu âm th a n h tương tự tro n g m ột sở liệu âm th an h

Chuỗi đặc trư ng có nhiều ứng dụng, có th ể kể đến: nhận dạng h t, th u âm, quảng cáo; giám sá t p h t th an h ; quản lý th viện hiệu ứng âm th an h ; nh ận dạng video v.v C hính chuỗi đặc trư n g đ ã trở th n h đối tượng nghiên cứu quan tâm [l]-[27], đồng thời ứng dụng chuỗi đặc trư n g ngày phong phú [28]-[40]

Trong báo cáo này, chúng tơi trìn h bày m ột cách tổng quan phương ph áp nghiên cứu xác định, so sánh tìm kiếm chuỗi đặc trưng; m ột số ứng dụng đ ã triển khai

2 M ộ t số khái n iệm chuỗi đặc trư n g

Chuỗi đặc trư ng, đ ã nói trên, m ột tóm t ắ t m ột chuỗi tín hiệu âm th a n h N hư để có chuỗi đặc trư ng m ột chuỗi âm th an h , t a cần xây dựng m ột hàm / ánh xạ m ột chuỗi bit A vào m ột chuỗi b A Ị có độ dài nhỏ Dể so sánh mức độ tương tự hai chuỗi b it (tín hiệu âm th a n h ) A ì A 2, chúng t a so sánh mức độ tương tự hai chuỗi đặc trư ng

(29)

tương ứng A h A 2/ c ầ n liru ý việc so sánh A y, yl2, khơng pliàì so sánh tuyêt dối m ặt toán học mà cân có tín h cam quan Ngươi

nghe thường nhận dạng bàn nhạc phát VƠI chat ượng

tín hiệu âm th an h khác nhau, chẳng hạn từ chất lượng âm th an h tư D to t chất lượng âm phát qua rađio

Do cần có số tiêu chí để đánh giá hàm / nói Sau đa) la m ọt số tiêu chí thường đươc sử dụng:

• T ín h b ề n vữ ng: Chuỗi đặc trưng phải thay dơi tín hiệu âm th an h bị suy giảm tín hiệu âm bị nhiễu, bị méo v.v T ính chat naỵ làm tăng độ tin cậy nhận dạng âm th a n h môi trường thực, co nhiêu tạp âm biên độ tín hiệu nhỏ

• T ín h t i n cậy: Chuỗi đặc trưng cho khả nhận dạng nhiều trường hơp

• D ộ lớn c ủ a ch u ỗ i đ ặ c trư n g : số lượng bit chuỗi đặc trư n g nhỏ giúp cho tốc độ tìm kiếm cải thiện giảm dung lượng lưu trữ • D ộ m ịn: Dó dài tối thiểu chuỗi âm th an h (theo đơn vị thời gian) để

có thể nhận dạng Chẳng hạn số th u ậ t tốn cần chuỗi tín hiệu Am dài từ 15 đến 30 gicây để tín h chuỗi đặc trưng

• T ố c đ ộ tìm k iế m k h ả n ă n g m rộ n g : Dây yếu tố quan tìm kiém âm sở liệu lớn Tốc độ tìm kiêm (search speed) khả mở rông đưcic (scalability) hai yếu tố dưưc quan tám hang đảu việc triển khai hệ thống tìm kiếm fun

3 Các phương pháp xác địn h chuỗi đặc trư n g

3.1 Các loại đặc trưng chuỗi tín hiệu âm thanh

Nguyên tắc chung cho việc xác định chuỗi đậc trư ng trích rú t đặc trưng từ chuỗi tín hiệu âm Các đặc trưng m ột nhạc thường chia th àn h hai loại chính: đăc trưng ngữ nghĩa đặc trư n g phi ngữ nghĩa

Các đặc trưng ngữ nghĩa thường co tín h trự c quan C hăng hạn d ặ f trưng th i loạt [genre] m nhạc, số nhip m ột phút ( beats per m inute -

bpm) đ ự u tinh (mood) đặc trưng ngữ nghĩa Do đặc trư ng loại

ít m ang tính tốn học, ncn thường sử dụng để xác định chuỗi đặc trư ng nỏ khơng xác nhiều gắn với quan điểm cá nhân (chẳng hạn đặc trưng thê loại) Bơi tậ p tru n g vào việc p h â n tích th u ậ t toán, phương pháp xac định chuỗi đcic trưng dựa trê n đặc trư ng phi ngữ nghĩa Hi(.‘n có b ‘>n phương pháp để xấc định chuỗi đặc trưng dựa vào đác tiư n r plii ngữ nghĩa Do phương pháp: rử a sổ gói [15], phương p h p ^ Ke (lựa > ứa sổ Rối kpt help với hnc m áv '19 , phương ph áp phán tích

(30)

b iệt số méo tín hiệu DDA [6] phương ph áp dự a trê n wavelet kết hợp với kỹ th u ậ t lĩnh vực thị giác m áy [3], [4], [16] Sau ý tưởng từ n g phương pháp

3.2 Phương pháp cửa sổ gối

C ửa số gối (overlay window) phương pháp xác định chuỗi đặc trư ng phổ dụng n h ất Phương pháp sử dụng cửa số gối chuỗi tín hiệu âm th a n h để trích r ú t đặc trư ng [15] C ửa sổ gối sử dụng để trì tín h b ấ t biến hệ số dịch thời gian (tim e-shift) tro n g trường hợp chúng t a không th ể so sánh theo kiểu thời gian

Biểu diễn phổ tín hiệu âm th an h có th ể xây dựng nhiều cách, chẳng hạn đo lượng M FCC (Mel-Frequency C epstrum Coefficients) B FC C (B ark Frequency C epstrum Coefficients) J H aitsm a cộng [15] sử dụng B FC C để xác định chuỗi đặc trưng Trong báo tác giả này, 33 băng tầ n B FC C sử dụng dải tầ n 300-2000 Hz 11,6 mili giây lại có m ột chuỗi đặc trưng (sub-fingerprint) tạo m ột fram e 370 mili giây Do frame gối nên chuỗi đặc trư ng biến đổi chậm theo thời gian Khi việc so sánh độ tương tự hai nhạc qui so sánh nhiều chuỗi đặc trư ng Việc so sánh chuỗi đơn giản dự a vào việc tín h khoảng cách Ham m ing chuỗi đặc trưng tương ứng Ưu điểm phương ph áp tín h đơn giản tốc độ tín h to n cao

3.3 Phương pháp cửa sổ gối kết hợp học máy

Phương p h p th ứ hai đư a gần đây, xem mở rộng cửa số gối Y Ke cộng [19] sử dụng tản g tương tự J H aitsm a [15] có th êm tín h học m áy xác định đặc trưng M ột đặc điểm quan trọng nữ a Y Ke đ ã biểu diễn tín hiệu âm th a n h 1-D m ột ảnh số biểu diễn không gian hai chiều với trụ c thời g ia n -tầ n số

Kỹ th u ậ t học m áy Y Ke sử dụng [19] A daB oost, m ột kỹ th u ậ t phổ biến tro n g ứng dụng thị giác máy, chẳng hạn p h t m ặt người ả n h [26] Y Ke cộng đ ã sử dụng A daB oost cho hệ thống m ình học đặc trư n g lượng trê n m ột số tầ n số chọn lọc theo thời gian Dộ dài tầ n số chọn thông qua th u ậ t to án AdaB oost Áp dụng th u ậ t to án A dB oost, có 32 đặc trư ng lựa chọn, từ tạo chuỗi đặc trư n g tương ứng có 32 bit Khi có u cầu tìm kiếm nhạc, hệ thống Y Ke [20] trư ớc hết xử lý liệu âm th a n h vào tương tự [15] để tạo chuỗi đặc trư n g Sau đó, tín h khoảng cách H am m ing chuỗi đặc trư n g để tìm độ tương tự

(31)

3.4 Phương pháp DDA

Phương pháp thứ ba fG sử dụng phương pháp DDA (D istortion D iscrim inant Analysis) - phương pháp trích rút đặc trưng xem bén ' ưns với nhiều - để xác định chuỗi đặc trưng Các đặc trưng xác đinh bơi DDA thường phức tạp cár đặc trưng đưa báo cua J Haitsm a [15] Y Ke [19j lại cho phép tính chuỗi đặc trư ng cùa rác chuỗi tín hiệu dài phương pháp khác DDA dựa m ột biến thể phương pháp LDA (Linear Discriminant Analysis) gọi O riented Principal Components Analysis (OPC A )

OPCA giả thiết có mơt phiên tín hiệu bị méo m ẫu huấn luyện để từ tìm dặc trưng bị biến đổi thực bước tiền xử lý tín hiệu làm giảm nhiễu dến mức tối thiểu tăn g tối đa mức tín hiệu Ngược lại, phương pháp PCA (Principal Com ponents Analysis) tìm tậ p vector trực giao để tang tối đa biến đổi cùa tín hiệu Như O PCA tìm thp cãc vector khơng trực giao dùng để tính tốn nhiễu Thực nghiệm Burgos vã cár công [6] cho thấy chuỗi đậc trưng xác định phương pháp DDA bị biến đổi với vấn dề thời gian quan trọng bị

biến dõi với loại nhicu khơng có liệu huấn luyện.

3.5 Phương pháp dựa wavelet

Plníơng pháp cár tái giã s Baluja M Covell (Google Inc.) p h t triển [3], [4], [9] (lựa tiếp cận cùa Y Ke [19]: áp dụng kỹ th u ậ t lĩnh vực thi giác máy vào việc xây dựng chuỗi đặc trưng tiếp cận dựa trẽn wavolot cùa Jacob [líỉị Phương pháp nàv khơng sử dung kỹ thuật, học máy m di.fa tren tiép cận wavelet dể tăng tốc độ tìm kiếm sở liệu đ a phương tiện lớn [16] Chuỏi đ ả r trưng s Baluja M Covell đè x u ấ t dựa công trình cùa J Haitsm a [14], [15] nhung có cải tiến náng cao để có th ể đại diộn cho mẫu tín hiệu âm có đo dài lớn

4 M ột số ứng dụng chuỗi đặc trưng

4.1 Giám sát phát thanh

Giám sá t p hát ( broadcast monitoring) m ỗt ứng dụng quan trọng chuỗi dàc trưng [1], [14], [23], [12], [39], [40] Trong giám sát p h t th an h truyen thống, quan giám sat có r r nhân viên theo dõi kênh p h át th an h so sánh với chương trình p hát để phát sai sót Các hệ giám sá t p h t th an h dựa chuỗi đặc trưng thường có hai loại m áy chủ: Máy chủ giám sá t va III.IV uhu truiiR tam May chủ giám sát dóng vai trị nhân viên giám sat cua phat truyèn fhi.ne theo dõi kênh p h t th an h báo c u chui II (ỉ tc trưng cho máy chủ trung tâm Máy chủ tru n e tâm sử dụng ■ huui cl» tiư ng nav tìm kiem crt sỡ liêu sinh điírtr háo VI ihưiin trm h pha*, UM cáo ki-nh hị giáin sát

(32)

4-2 Các ứng dụng liên thông âm thanh

Cac ưng dụng liên thông âm th a n h ( connected audio) th u ậ t ngữ chung

ac ưng dụng dành cho người dùng có liên quan tới âm thanh/âm nhạc

1 cac thong tin liên quan Một ví dụ đặc trư ng n h ấ t ứng dụng tìm kiếm ^an n lạc qua diện thoại di động Người dùng u nghe b ản nhạc p h t qua loa, Ovic ( phat muốn biết tê n nhạc, ca sĩ th ể Người gọi lẹn thoại đến số điện thoại dịch vụ để nhạc th u qua điện thoại c ược truyen tới server chứa sở liệu âm nhạc Server vào chuỗi đặc nrưil& đê tìm tên nhạc, ca sĩ th ể V V gửi kết cho người dùng

1- ay a mọt ứng dụng rấ t khó tín hiệu âm th a n h sau nhiều lần truyền bị suy giảm có nhiều nhiễu [32], [35], [37], [38]

4.3 Các lọc ứng dụng dùng chung file

Trong ứng dụng dùng chung file, chuỗi đặc trưng sử dụng để nhận r a cac file âm nhạc có quyền khơng cho người dùng download file N ăm 2001, N apster [31] cài đ ặ t lọc dựa trê n tên file lọc h o t động khơng hiệu Do vào th án g 5/2001, N apster đ ã sử dụng lọc dự a chuỗi đặc trưng R elatable [30]

4.4 T ự động tổ chức th viện âm nhạc

Chi đặc trư ng sử dụng vào việc tự động tổ chức th viện âm nhạc Hiện MP3 khuôn dạng file thường sử dụng để lưu trữ th viện âm nhạc Các file M P3 tạ o từ nhiều nguồn khác siêu liệu (m eta data) kèm theo tên tác giả, tá c phẩm , người th ể hiện, năm th u âm không đầy đủ n h ấ t quán Khi chuỗi đặc trư n g sử dụng để hồn thiện thơng tin [28], [29], [39]

4.5 M ột số ứng dụng khác

Chuỗi đặc trư n g có r ấ t nhiều ứng dụng khác thực tiễn Trong lĩnh vực truyền hình, chuỗi đặc trư ng sử dụng ứng dụng truvền hình có tương tá c [11] m khơng cần sử dụng thêm th iế t bị đạc biệt, tự động p h t th a y th ế đoạn quảng cáo [5] K hác b iệt so với công nghệ khác, chuỗi đặc trư ng hướng tới ứng dụng đ a phương tiện với mục tiêu n h ậ n dạng đối tượng m không cần đến thông tin siêu liệu nh m eta, w aterm ark

5 K ế t lu ận

Trong báo cáo đ ã trìn h bày m ột cách tổng quan khái niệm chuỗi đặc trư n g âm th a n h , phương p h áp xây dựng tìm kiếm, so sánh chuỗi đặc trư n g âm th a n h nghiên cứu p h t triển; đồng thời

(33)

giới thiệu m ột số ứng dụng điển hình chuổi đặc trưng ảm t an ong xu hướng p hát triển m ạnh ứng dụng Internet sư dụng n ìeu oại liệu khác (n c h Internet applications) - đặc biệt dư liẹu đa phương tiện - chuỗi dặc trưng âm đối tượng nghiên cứu có tín h thơi sự, y ng na khoa học khả ứng dụng thực tiễn cao

Lời c ả m ởn Cơng trình tài trợ m ột phần từ đe tài nghicn cưu khoa học m ang m ã số QC.08.01, Đại học Quốc gia Hà Nội

Tài liệu th am khảo

Ịl] E Allamanche, J Herre o Hellmuth, B B ernhard Frobach, M C rem er,

AudioID: Towards Content-Based Identification o f Audio Material, 100th

AES Convention, Am sterdam , The N etherlands, 2001

r2] A Andoni and p Indyk, Near-optimal hashing algorithms fo r approximate

nearest neighbor in high dim ensions, in 47th A nnual IE E E Sym posium on

Foundations of C om puter Science ( F c s ’06), 2006, pp 459 468

r3] Baluja, Covell, Content fingerjirinting using wavelets, Proceedings of the 3rd European Conference on Visual M edia P roduction (C V M P), 2006 [4] S Bftluja, M Covell, Audio Fingerprinting: Combining C om puter Vision

& Data Stream Processing, Proceeding of the IEEE International Confer­

ence on Acoustics Speech and Signal Processing (ICASSP), 2007

[5] M Covell, S Baluja, M Fink, Advertisem ent Replacem ent using Acoustic

and Visual Repetition, Proceedings of the IE E E W orkshop on M ultim edia

Signal Processing, 2006

[6] c Burges, J P la tt, s Jan a, D istortion D iscrim inant Analysis fo r A u ­

dio Fingerprinting, IEEE Transactions on P a tte rn Analysis and M achine

Intclligencve, 11 (3), 2UU3

[7] P Cano, E Batlle, T Kalker J H aitsm a, A remew o f algorithms fo r audio

fingerprinting, In W orkshop on M ultim edia Signal Processing, 2002.

* ^ Cheng, M usic Database Retrieval Based on Spectral Sim ilarity, In tern a­ tional Symposium on Music Inform ation R etrieval (ISM IR) 2001, Bloom ­ ington, USA, O ctober 2001

'* M Covcll S Baluja, K now n-Audio D etection Using W aveprint: Spec-

tm qm m F ingrrpnnting B y Wavelet Hashing, Proceedings of th e IE E E

International Conference on Acoustics, Speech and Signal Processing MCASSPl 2007

(34)

[10] A D uda, A N urnberger, and s Stober, Towards query by hu m ­

m ing/singing on audio databases, in Proceedings of th e 7th In ternational

Conference on Music Inform ation Retrieval, 2007

[11] M Fink, M Covell, s Baluja Social- and Interactive-Television Applica­

tions Based on Real-Tim e A m bient-A udio Identification, Proceedings of

EuroIT V , 2006

[12] D Fragoulis D., G Rousopoulos, T Panagopoulos, c Alexiou, c Pa- paodysseus, On the Autom ated Recognition o f Seriously D istorted M usical

Recordings, IE E E Transactions on Signal Processing, 49 (4), pp 898-908, 2 0 1.

[13] A Gionis, p Indyk, R M otwani, Sim ilarity search in high dim ensions

via hashing, Proceedings of th e International Conference on Very Large

D atabases, 1999

[14] J Haitsma., T Kalker, J Oostveen, Robust Audio Hashing fo r C ontent

Identification, C ontent Based M ultim edia Indexing 2001, Brescia, Italy, 0 1.

[15] J H aitsm a, T Kalker, A Highly Robust Audio Fingerprinting System , Proceedings of the International Conference for Music Inform ation Re­ trieval, 2002

[16] c Jacobs, A Finkelstein, D Salesin, Fast M ultiresolution Image Q uery­

ing, Proceedings of SIG G R A PH , 1995.

[17] J.-S R Jang and M.-Y Gao, A query-by-singing system based on dynam ic

programming, in Proceedings of th e International W orkshop on Intelligent

System s Resolutions, 2000

[18] J.-S R Jang, C.-L Hsu, and H.-R Lee, Continuous H M M and its en­

hancem ent fo r singing/hum m ing query retrieval, in Proceedings of th e 6th

In ternational Conference on Music Inform ation Retrieval, 2005

[19] Y Ke, D Hoiem, R S ukthankar, Com puter Vision fo r M usic Identifica­

tion, Proceedings of th e IE E E C om puter Society Conference on C om puter

Vision and P a tte rn Recognition (C V P R ), 2005

[20] Y Ke et al., C om puter vision fo r m usic identification: server code, h t t p : //w w w c s em u ed u / y k e / m u s i c r e t r i e v a l / m u s i c r e t r - t a r gz, 2005

[21] K Lem strom , String M atching Techniques fo r M usic Retrieval, Ph.D th e ­ sis, U niversity of Helsinki, 2000

[22] c Meek and w B irm ingham , A pplications o f binary classification and

adaptive boosting to the query-by-hum m ing problem, in Proceedings of the

3rd In tern atio n al Conference on M usic Inform ation R etrieval, 2002

(35)

[23] H Neuschmied H Mayer E B attle, Identification o f A udio Titles on the

Internet, Proceedings of the International Conference on Web Delivering

of Music 2001, Florence, Italy November 2001

[24] J Oostveen, T Kalker, J Haitsm a, Feature Extraction and a Database

Strategy fo r Video Fingerprinting, 5th International Conference on Visual

Information Systems, Taipei, Taiwan, M arch 2002 published in Recent aíỉ.ances in Visual Information Systems, LNCS 2314, Springer, Berlin, pp 117- 128

251 R Typke Music Retrieval based on Melodic Sim ilarity, Ph.D thesis, Uni- versiteit Utrecht, 2007

Ị26Ị P Viola, M Jones Robust Real-tim e O bject Detection Proceedings of the International Conference for C om puter Vision, 2001

[27] X Wu, M Li J Yang, and Y Yan, A top-down approach to melody

match in pitch countour fo r query by hum m ing, in Proceedings of the

International Conference of Chinese Spoken Language Processing, 2006 [28] Auditude website h t t p : //www a u d i t u d e com

ID3Man website h t t p : //w vw id3m an com !30! Rclatable website h ttp ://w w w r e la ta b le c o m [31] Napster wohsitp h ttp ://w w w n a p s te r.c o m

32] Website All Media Guide h ttp ://w w w a llm e d ia g u id e c o m /la s s o / '33 h t t p :/ / b u s i n e s s mufi n c o m /e n /p r o d u c ts /

m u fin - a u d io id - m u s ic - r e c o g n itio n - a n d - m u s ic - m o n ito r in g / ■34Ị Website G racenote h t t p : //w vw g r a c e n o t e com/

[35] Website Last.fm h t t p : // w w w l a s t f m /

[36] Website Music Brainz h t t p : / / m u s i c b r a i n z o r g / 37] Website Shazam h t t p : //www shazam com/

[38 Website Tunatic h t : // w w w w i l d b i t s c o m / t u n a t i c / 39] Moodlogic website h t t p : //www m o o d lo g ic

40 Ydcast website h ttp ://w w w y a c a s t.c o m

(36)

ĐẠI HỌC QUỐC GIA HÀ NỘI TRỪỜNG ĐẠI HỌC CÔNG NGHỆ

Bùi Thanh Xuân

CHUỖI ĐẶC TRƯNG ÂM THANH VÀ ỨNG DỤNG TRONG TÌM KIẾM NHẠC SỐ

KHÓA LUẬN TÓT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin

Cán hưóiig dẫn: TS Nguyễn Hải Châu

(37)

TÓ M T Ắ T N Ộ I D U N G

(38)

EQ

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Vũ Thị

Tu-TÌM KIẾM D LIỆU ÂM THANH BẰNG PHƯƠNG PHÁP QbH VÀ ỨNG DỤNG

KHĨA LUẬN TĨT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin

Cán hưóng dẫn: TS Nguyễn Hải Châu

(39)

Tóm tắt

Trong luận văn chúng tơi xin trình bày hiểu biêt cùa vê nhừi vấn đề sau đây:

• Rút trích đặc trưng giai điệu từ đoạn thu âm người dùng • Biểu điền đặc trưng giai điệu phù hợp cho q trình tìm kiểm

• Phương pháp tìm kiếm hay truy vấn giai điệu mong muốn s dữ liệu đặc trưng chọn

Âm truy vấn thu âm từ người sử dụng rút trích đường biể diễn cao độ (pitch sequence) hay gọi tần sổ f ữ Chuổi cao độ đư<; dùng đê tính đặc trưng đường biên giai điệu đặc trưng dùng qi trình tìm kiếm với phương pháp Dynamic Time Warping (DTW)

Khóa luận tốt nghiệp thực khuôn khổ đề tài nghiên cú mang mã sổ QC.08.0I, Đại học Quốc gia Hà Nội.

(40)

IỘ N G HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯƠNG ĐẠI HỌC CÔNG NGHỆ Đ ộ c lập - T ự d o - H n h p h ú c

Đ Ề C Ư Ơ N G

, * ĐẺ TÀI KHOA HỌC CÔNG NGHỆ

C A P ĐẠI H Ọ C Q U Ố C GIA HÀ N Ộ I/C Ả P T R Ư Ờ N G ĐẠI H Ọ C C Ô N G N G H Ệ N Ă M 2008 (Do T r ò n g Đ H C N quản lý)

à c c £ CA

1 Tên đề tài:

Tiêng Việt: Chuỗi đặc trung ứng dụng tìm kiếm liệu đa phirong tiện

r

Tiêng Anh: Acoustic fingerprint and its application in searching multimedia content

2 Thcri gi an t h ự c h iệ n: 12 t h n2 (từ t h n s 6.2008 đến t h n s 6/2008)

3 Đ ê tài thuộc lĩnh v ự c ưu tiên: Cơne nehệ thơna tin 4 Tính độc đáo (origin ality) cùa đề tài:

5 T h ô n g tin chủ nhiệm đề tài:

- H ọ tên: N g u yền H ài Châu N am , - N ữ - N ă m sinh: ỉ 970

- N gành, c h u yê n ngàn h đào tạo: C ông nghệ thong tin

- H ọc hàm, h ọ c vị: Tiến s ĩ

- C hức danh: Chủ nhiệm m ôn

- Đ ơn vị c ô n g tác (Khoa, Trung tâm ): K hoa C ông nghệ thông tin - Đ ịa c h ỉ liên hệ: P hò n g 304, nhà E3, trường Đ ại học C ông nghệ

Sổ Fax: 04-~54~460

Sổ điện thoại: Cơ quan: 04-~!5 4~ 8ỉ3; Nhà riêng: 04-5535269; Di động: 0903405040 - Tóm tăt h o t đ ộ n g nghiên cửu chủ nhiệm đê tài:

Thòi, gian Tên đê tài c n a trình T cách tham 2Ìa Câp quản lý/Nơi cơng bơ

9/2005-9/2006

Tí nh tốn hiệu n ă n s cao ứ ng d ụ n g vào tốn m ng độ ng lực p h ân tử ( Q C )

C hủ trì đề tài T r ờn g Đại học Công nghệ, Đ H Q G H N

9/2004-9/2006

N a h i ê n c ứu mơ hình thử n e h i ệ m xâv d ự n s hệ t h ố n g dịch vụ điện tử p h ục vụ học tập nghi ên c ửu sinh viên

T h àn h viên T r n s Đại học C ô n a nghệ, D H Q G H N

2006-2008

N g h i ê n cứu, phát triên hệ t h ố n e lọc nội d ung hồ trợ q u n lý đảm bào an tồn - an ninh t hơ n g tin m n g Internet

(41)

6 Cơ quan phối họp cộng tác vien chinh cua đe tai

• Các quan phối hợp

J J Ị Tên địa chi q ua n phối hợp

*

1 I ' Khoa CNTT trường Đại học C ô n g nghệ

• Các cộng tác viên

TT I lọ tên Học vị C huyên n e n h đào tạo

C quan c ô n s tác

1 Nguyền N c ọ c Hóa TS C N T T K ho a C N T T , ĐHCN

2 Nguvễn Hà Nam TS C N T T K h o a C N T T , ĐHCN

3 Dư Phươna Hạnh ThS C N T T Kh o a C N T T ĐHCN

3 Neuycn Thị Thì n Linh CN C N T T Kho a C N TT , ĐHCN

4 Phạm Q u a n e Nhật CN C N T T JAIST, Nhậ t Bàn Minh

Phạm Câm N ẹọ c CN C N T T K ho a C N T T , ĐHCN

7 -Mục tiêu dề tài:

• N t hi ên cứu vè tìm kiém âm dựa chuỗi dặc trưng

• Xây dựng ứng d ụn e thử nghiệm tìm kiếm bàn nhạc C S D L nhạc số dt chuối đặc t rưn2

8 T ó m tắt nội d u n g nghitMi CIIU c ủ a đề tài:

• Trong khn khổ dê tài c h ú n s n s h i ên cứu vấn đề sau: • Nghiên cứu chuỗi dặc trưng âm (acoustic fingerprint)

• Cúc ihuật tốn xác định aooustic fingerprint có ưu nhưực điểm cua chúna • Xây dựng ứng d ụng thử nghiệm tìm kiếm âm nhạc Irong C S D L nhạc số dựa trê

chuỗi dặc trưng âm thar.n

9 Các chuvên đề nghiên cúu dụ kiến đề tài

Nội Ju n g C h u yên đê

V 11liu bun - c huói đặc trưng âm thuật toán xác định

So sánh thuật toán xác dịnh chuỗi âm khác v dựng ửng d ụng thư nghiệm tìm kiém âm nhac tronc c

nhạc -ÍƠ dựa chuỗi dặc t rư n ẹ âm

(42)

của đề tài (chi tiết hoá chương mục): Phần mỏ’ đầu:

Giới thiệu m ụ c tiêu, nội dung nghiên cứu đề tài, sơ lược trình thực đề tài kết q u ả

P hần 1: Tổng quan

- N g hi ê n cứu t qua n chuỗi đặc trưne âm

- K n ă n g ứn g dụn g thực tiễn chuỗi đặc trưng âm trona dịch vụ nội d un g số

Pliân 2: Các th u ậ t tốn tìm kiếm âm dựa ch u ỗ i đặc tn rn g

Các thuật toán xâ y d ự n g chuỗi đặc trưne âm thanh, so sánh thuật tốn

P hần 3: n g d ụ n g

- X ây d ự n g thử n g hi ệ m hệ th ố ns C SDL nhạc sổ (hoặc sử d ụ n s hệ thốne C S D L sẵn có) n h m ph ục vụ cho tìm kiếm âm

- Xâ y d ự n g ứn g d ụn g thử nghiệm tìm kiếm nhạc theo chuỗi đặc t r n s âm

Phần 4: Đ ánh giá kết luận

Đánh giá kết c đề tài, kết luận h ướ ng n s h i ên cứu

11 Tính đa ngành liên ngành đề tài:

- Đê tài nà y bao hà m nhiêu chuyên n e àn h khác trone CNTT Các c h u \ è n n g nh c hí nh đ ượ c liệt kê đây:

C sở d ữ liệu đ a p h n g tiện X lý tín hiệu số

- T í nh đa/liên n gà nh thể qua việc tích hợp tri thức chù yếu từ hai c hu yê n n g n h để giải vấn đề đặt t r o ne đề tài

- Đ e tài đ ượ c thực định h n e nghiên cứu c C SD L đa p hương tiện m ô n C H T T T , khoa CNTT

12 P h u o n g pháp luận p h u o n g pháp khoa học sử dụ ng đề tài:

- Thu thập n g h iê n c u nội dung khoa học t nhiều ng uồ n khác sách, báo c hu yên n e ành, Internet lĩnh vực tìm kiếm â m theo chuỗi đặc trưna - Kết h ợp nghiê n c ứ u c ô n e nghệ, lý thuyết phát triển ứng dụne

- Tổ c hức semi nar, t h a m eia hội nghị, hội thảo liên quan đến lĩnh vực tim kiếm âm nhạc

13 T n g thiết bị, p h o n g tiện nghiên cứu đ u ọ c sử dụng:

Các thiết bị có mơ n C H T T T K h o a CN TT: - M y tính cá nh ân

- M y tính s erver

(43)

15 Các hoạt động nghiên cứu cùa đê tài

Nehiên cứu tài liệu Điểu tra khảo sát □ Biên soạn tài liệu Thiết kế xây dựng thí nghiệm □ Thực thí nghiệm, đo đạc □ Tổ chức, tham cia hội thào khoa học

Tập huấn □

Viết báo cáo khoa học Thiết kế chế tạo sàn phẩm, thiết bị □ Chạy thử kiểm nghiệm Hoàn thiện san phàm, thiết bị □

Hoạt động khác □

16 Kết quà dự kiến

16.1 Kẻt <111(1 khoa hục

- Một báo cáo tone hợp kết quà nghiên cứu cùa đê tài

- Một báo cáo/bài báo hội nghị hội thào khoa học liên quan đến tìm kiếm CS1 multimedia

16.2 Kết quà triển kliai íntg (lụng

- Phàn mềm thư nehiệm tìm kiém bàn nhạc theo giai điệu 16.3 hết quà đảo tạo

- Hai khóa luận tốt nghiệp Đại học ngành C N T T

ì 6.4 Két (JIM tàng cường tiềm lực cho đon vị

- Kết qua bồi dư ỡ nẹ nâng cao trình dộ cán bộ: Ket quà c ùa đê tài chù yêu phục vụ mục đích t ă n s cirờna n ă n s nehiên cứu khoa học sinh viên, họ viên cao học NCS cán mơn C H T T T

- Đóne 2Ĩp cho việc tăng cường trane thiết bị: K h ô n e

17 Tổng kinh phí đề nghị:

25.000.000 đ (H m i lăm triệu đồng)

18 Nội dung tiến độ thục đề tài (D anh mục nội d u n g nghiên cứu <( đuọc tricn khai, thòi gian thực sản phẩm t u o n g ứng d ự kiến đạt đưọi TT Nội dun” hoạt động nghiên cứu Thòi gian thụx hiện S ả n pliẩm k

Từ tháng Đỗn thány ĩ h u thập thông tin, tài liệu viết

tịriii quan vê ốc van đẻ nghiên cứu 6,2008 6/2009 B áo cáo tônj Xày dựng dè c ương nghiên cứu chi tiết

(44)

-fingerprint - 7/2008 8/2008

Báo cáo chuyên đề N a h i ê n c ứu p h n g phá p x ây d ự n e

CSDI^ âm nhạc 8/2008 10/2008 D e ' x ua t p h n g p h p xây dựn g ứng

d ụ n e tìm k iế m â m nhạc theo đặc t rưng âm

8/2008 10/2008

3 Hội thảo kỳ 11/2008 11/2008

4

Viểt báo cáo c h u y ên đề: - C hu yên đề C S D L multimedia - C hu yê n đề acoustic fingerprint

11/2008 2/ 2009 Báo cáo chuyên đề

5 Xâ y d ự n e ứ n e d ụ n e thử nghiệm 12/2008 4/ 2009 Phàn mềm thử nghiệm

Đá nh aiá kết 2/2009 4/ 2009 Báo cáo đánh 2Ĩá

6 Viết báo cáo t ổ n e hợp 4/2009 5/2009 Báo cáo tôna kết đề tài

Hội thảo lần cuối 5/20.09 5/2009

Hoà n thiện báo cáo 5/2009 5/2009 Báo cáo tông kết đê tài hoàn thiện

7 N ộ p sản p h ẩ m 6/2009 6/2009 Bài báo báo cáo, phần mềm

8 N g h i ệm thu đề tài 6/2009 6/2009 Két quà nghiệm thu

19 Phân bổ kinh phí

T T Nội d u n g K i n h p h í ( V N Đ ) Xâv dựn g đề c n e nghiên cứu chi tiết 1.000.000 Thu thập tài liệu v viết tổng quan đề tài

Th u thập tài liệu (mua thuê) Dịch tài liệu tha m khả o (số trang X giá)

1

Viết t ổ n s qua n

3 Đi ều tra, k h ảo sát, thí nghiệm, thu thập sơ liệu nghiên cứu . - - -— 19.000.000 Chí phí tàu xe, c n e tác phí cho hoạt đ ộ n g nghiên c ứu (113)

Chi phí th ng tin liên lạc (111)

0

Chi phí thuê m n (th nhân cơng, th c hun gia naồi n c ) (114)

19.000.000

-—

Chi phí hoạt đ ộ n g c hu yê n môn: chi tô chức semi nar, chi quàn lý cua c hủ nh iệ m đẽ tài v v ( l 19-99)

(45)

4 Thuê, mua săm trane thiêt bị, neuyên vât liệu, linh kiẹn u

Thuê trane thiết bị (119) D

Mua trane thiết bị (145) ũ

Muă vật liệu, linh kiện nhỏ (119-01) Viẽt báo cáo khoa học, n shi ệm thu 3.500.000

Viết báo, báo cáo đề tài 2.000.000 Mội thào (phí tham d ự hội thào, hội nahị, kinh phí lại,

cơng tác phí tham d ự hội thào, hội ns hị) (113 119-06)

0

Nghiệm thu (119-99) 1.5 00.000

6 Chi khác

- i 250.000

Mua văn phòng phẩm ( 19-0fi) 50.000 ln ấn, chụp tài liệu (119-06) 2 00.000

Ọuán K phí (119-99) 1.250.000

7 Tơnự kinh p h í 25.000.000

I ơng k i nh phí: 25.000.000 đ (Hai mư i lăm tri ệu đ n g )

Ng ày t h n s năm 2007 C h u nh iệ m dê tài Tl ni t r ỏ n g đo'11 vị

■ ' X.

Nguyen H i Châu Trịnh Nhcật Tiến

Ngà> tháne * - nãm 200 Ý

Phê d u \ ệ t cua T r ự n Đ H C N

T L HIỆU TRƯƠNG

t r n g p h ò n g

(46)

T D ^ 1’ QUỐC GIA HÀ NỘI CỘNG HÒA XẢ HỘI CHỦ NGHĨA VIỆT NAM

'ƯƠNG ĐẠI HỌC CÔNG NGHỆ Đ ộc lập - T ự - H ạnh phúc

~ = = = = o o = = = " = = = = o o = = = ồõ: ■'••6 /2008/HĐ-KHCN

Hà Nội, ngàvZ& tháng năm 2008

HỢP Đò n g t h ự c h i ệ n đ è t i NGHIÊN c u KHOA HỌC

CÁP Đ Ạ I H Ọ C QƯÓC G IA HÀ N Ộ I NĂ M 2008

Can CU' ve Qui định vé Tố chức Hoạt động cùa Đ i học Quốc gia Hà N ộ i ban hành theo Ouyẻt định so 600/TCC B ngày 0Ỉ tháng 10 năm 2001 cùa Đ ại học Quốc gia Hà N ội qui đình quyên hạn cưa ìuẹii truơng trường đại học thành viên;

Căn thông báo số 1880/TB-KHCN ngày 29 tháng năm 2008 cua Giám đốc Đại học ộ u ố c gia Ha A ọ / ve viẹc giao nhiệm vụ chi tiêu kế hoạch Khoa học & C ông nghệ năm 2008:

- Căn để cương nghiên cứu cua đẻ lài phê duyệt,

Chúng gồm:

Bên giao nhiệm vụ (gọi bên A): Trư òng Đại học Công nghệ - ĐHQG Hà Nội Đại diện là: PGS TS Nguyễn Ngọc Bình

Chức vụ: Phó Hiệu trường

Bên nhận nhiệm vụ (gọi bên B)

Ông: TS Nguyễn Hải Châu

Đơn vị công tác: Khoa Công nghệ Thông tin - Trường Đại học Công nghệ

Ký hợp đồng thực đề tài nghiên cứu khoa học đặc biệt cấp Đại học Quốc gia Hà Nội“

Tên đê tài: “ C h u ô i đ ặ c trư n g ứng dụn g tìm kiếm d ữ liệu đa phuoTig tiện",

Mã sổ: Q C 08.01,

Với điều khoan thỏa thuận sau:

Diều ĩ: Bên B chịu trách nhiệm tổ chức triển khai thực nội dung nghiên'đứ?i đề

ài theo đ ú n g tiế n độ th ự c h iện đăng ký đê cư ng n g h iên cứu đư ợ c phê duyệt • '

Diêu 2: Bên B báo cáo kêt thực đê tài giao nộp sản phâm đê tài chơ bên \ theo qui định hành Đại học Quốc gia Hà Nội Trường Đại học rông nahệ trước ngày 10/06/2009, bao gồm: * ■

01 Phần mềm thử nghiệm tìm kiếm bàn nhạc theo giai điệu

01 báo báo cáo hội nghị/hội tháo khoa học liên quan đên tìm kiêm sờ liệu multimedia

02 khóa luận tốt nghiệp

(47)

pháp nội dung nehiên cứu kết quà đạt được, đánh giá ý nghía va tạc đọng khoa

học công n eh ệ kết quà đạt việc thực hiẹn đ e tai)

Diều 3; T ổ n e kinh phí cù a để tài phê ệt là: 0 0 0 đông

(Bang chữ: H m ươi lăm triệu đống chẵn ì

Chi phí cụ thể trone d ự tốn dự trù kinh phí

Diều 4: Bẽn B có trách nhiệm sử d ụ n e kinh phí cấp theo đú n g m ục đ ích, chẻ độ tài chinh hành, quvết tốn với phịne Tài vụ - Kế tốn thực việc nghiệm thu đê tài theo qui định cùa Đại học Q uốc aia Hà N ội

Diều 5: Bên A giữ quyền sở hữu trí tuệ kết quà khoa học cùa đê tài Tât các

công bố liên quan đến nội d une khoa học cúa đề tải phải ghi rõ nguồn tài trợ kinh phí nghiên cửu theo m ã so đề tài sau:

Đồi với báo báo cáo khoa học: ‘‘C ông trình đư ợ c tài trợ m ột phân từ đê tài m ang m ã số: Q C 08.01 Đại học Quốc aia H N ộ i”

Dối với luận vãn (khóa lu ậ n ): “ Luận văn (khóa lu ậ n ) đượ c thực khuôn khổ dề tài m ang m ã số: Q C 08.01, Đại học Q uốc gia Hà Nội

Đôi với báo báo cáo đăng tạp chí, kỷ yếu hội nuhị quốc tế (tiếng Anil): "This w ork is (partly) supported bv the research p roject N o Q C 08.01 granted by Vietnam N ational U niversity, H anoi”

Oicu 6: Hai bên cam kết thực d u n s điều khoan ghi hợp đồng Trorm q trình thực h(Tp đồng, hai bên có trách nhiệm thông báo kịp th ài cho n h ữ n s vấn đề vướng măc tù n g bàn bạc tích cực tìm biện pháp giai H ợp đ n g tự đ ộ n ẹ

thanh lý sau có biên hàn họp hội đông khoa học danh giá nghiệm thu dề tài với kết

dáp ứng qui dịnh hành

llig u h Htfp dồng làm thành 05 b n bên giữ 01 ban, 02 hàn gửi cho p h ò n g T V -K T 01 ban lưu phòng T C -H C

DẠI DIỆN BÊN lì

> I r / ' Á

(48)

SUMMARY

P ro ject title: Acoustic fingerprint and its application in searching m ultim edia content

Code num ber: QC.08.01

C oordinator: Dr Nguyen Hai Chau

Im plem enting institution: University of Technology, V ietnam N ational University, Hanoi

C ooperating institution:

D uration: year, from Ju n 2008 to Ju n 2009

1 O b je c tiv e s : This p ro je c t’s aim is to investigate m ethods for searching audio con­ te n t based on acoustic fingerprint and to build a p rototype system for searching audio from acoustic queries

2 M a in c o n te n ts: We investigated audio searching m ethods and following m a­ chine learning approach to e x tra ct audio features From th e featutes we calculate sim ilarity of audio snippets thus we are able to search and choose th e m ost ap­ p ro p ria te audio segm ent to a given audio query We build a p ro to ty p e system , co n stru ct tra in in g d a ta and obtained high accuracy in searching audio content (over 95%)

3 R e s u l ts o b t a i n e d :

- R esults in science and technology: Investigation of concepts, m ethods for generating, searching and m easuring sim ilarity of audio fingerprints; build­ ing a te s t audio d atab ase, train in g our system for audio feature extraction, ru n audio retrieval te s t and obtained high accuracy (over 95%)

- R esults in practical application: Successfully im plem ented a pro to ty p e ap­ plication to recognize audio content from m icrophone in p u t signal or from sam ple audio sn ip p ets whose lengths are less th a n or equal to 30 seconds - R esults in training: 02 B.Sc theses com pleted in Ju n 02, 2009, 01 M.Sc

thesis is under supervision

- Publications: 01 article to be subm ited to VNU Jo u rn al of Science 01 tech­ nical report

(49)

PH IẾ U Đ Ă N G K Ý ^

KẾT QUẢ N G H IÊ N c ứ u CÁC Đ Ề t i K H C N

T ên đ ề tà i:

Chuỗi đặc trưng ứng dụng tìm kiếm liệu đa phường tiện

(Acoustic fingerprint and its application ill searching multimedia contcnt)

M ã số: QC.08.01.

Cơ quan quản lý đề tài: Dại học Quốc gia Hà Nội

Địa chỉ: 144 Xuân Thủy, cầu Giấy, Hà Nội. Diện thoại: 04-37548664

Cơ quan chủ trì đề tài: Trường Đại học Cơng nghệ, Dại học Quốc gia Hà Nội

Địa chỉ: 144 Xuân Thủy, cầu Giấy, Hà Nội. Điện thoại: 04-37547813

Tống chi p h í th ự c chi: 25.000.000 đồng

Trong đó: - Từ ngân sách nhà nước: 25.000.000 đồng - Nguồn khác: đồng.

Thời gian nghiên cứu: 12 tháng

Thời gian bắt đầu: 6/2008 Thời gian kết thúc: 6/2009

T ên c n phối hợp n g h iên cứu: Chủ trì đề tài: TS Nguyễn Hải Châu

Cơ quan: Bộ môn hệ thống thông tin, khoa Công nghệ thông tin, trường Dại học Công nghệ, Dại học Quốc gia Hà Nội

Diện thoại: 04-37547813 Những người tham gia:

STT H ọ tên H ọc h m

học vị

Cơ q u a n công tá c

1 Nguyễn Ngọc Hóa TS Khoa Cơng nghệ thơng tin, trường Dại học Công nghệ, ĐHQGHISL

2 Dỗ Thị Minh Việt ThS Centre of Excellence, Norwe­ gian University of Science andc Technology (NTNƯ), Norway Phạm Cẩm Ngọc CN Khoa Công nghệ thông tin,

trường Đại học Công nghệ, ĐHQGHNÌ

4 Nguyễn Thị Thùy Linh CN Khoa Công nghệ thông tin trường Dại học Công nghệ,

đ h q g h n'

(50)

o - T

-Ket qua phục vụ thực tế: Dã hồn thành chương trình thử nghiệm tìm kiếm am dựa trẽn chuỗi đặc trưng với độ xác cao Bộ chương trình có the tiêp tục phát triển để hoạt động môi trường web

• Kết đào tạo:

— Đã hướng dẫn tốt nghiệp 02 sinh viên bảo vệ tháng 6/2009 đề tài tính tốn chi đặc trưng âm tìm kiếm liệu đa phương tiện — Đang hướng dẫn 01 học viên cao học (là thành viên thực đề

tài) thực đề tài nghiên cứu liên quan đến chuỗi đặc trưng âm thanli tìm kiếm nhạc sở liệu đa phương tiện

• Kết nâng cao tiềm lực khoa học: Nghiên cứu thuật toán, phương pháp ứng dụng chuỗi đặc trưng, hướng dẫn sinh viên thực tập sinh khoa Công nghệ Thông tin trường Đại học Công nghệ vấn đề liên quan đến chuỗi đặc trưng tìm kiếm liệu đa phương tiện

đê liên quan đến chuỗi đặc trưng tìm kiếm liệu đa phương tiện K iế n n g h ị q u i m ô đối tư ợ n g p d ụ n g k ế t q u ả n g h iê n cứu:

Các kết đề tài gồm báo cáo, báo, chương trình ứng dụng chia sẻ cho người quan tâm đến hướng nghiên cứu đề tài

Chức vụ Chủ nhiệm đề tài Thủ trưởng Chủ tịch Hội Thủ trưởng Thủ trưởng quan chù trì đề

tài

Thủ trưởng

qu11íGIẢMđẺ)ỔC

Chủ tịch Hội đồng đánh giá

nghiệm KH0A HỌ(Ị CƠNG NGHỆ

!Ĩ TRƯỞNG BAN

/ / f Ạ ! V 2

S / C N V /■■■''.'I& ísiiỉ

, r - ^ _ „ < ' v/ _\

PGS.T3: J )ỉỷu ýịl %Áế $ ìsẨ

h t t p : / / w w f f m p e g o r g http://WWW h t t p : //www c s emu e d u / h t ://w w w a llm e d ia g u id e c o m /la s s o / h t t p : / / b u s i n e s s m u fin c o m /e n /p r o d u c ts / h t t p : / / m u s i c b r a i n z o r g / h t t p : / / w w w w i l d b i t s c o m / t u n a t i c / www.shazam.com/ www.musinedia.nrp, h ttp ://w w w r e la ta b le c o m h ttp ://w w w n a p s te r.c o m h t t p : // w w w l a s t f m / h ttp ://w w w y a c a s t.c o m

Ngày đăng: 03/02/2021, 14:53

Tài liệu cùng người dùng

Tài liệu liên quan