Đang tải... (xem toàn văn)
Một hệ thống tìm kiếm âm nhạc dựa trên fingerprint xem xét cơ sở dữ liệu các bài hát như một tập các fingerprint, việc tìm kiếm thông tin về một bài hát sẽ tuơng ứng [r]
(1)ĐẠI HỌC QUỐC GIA HÀ NỘI
CHUỖI ĐẶC TRƯNG VÀ ỨNG DỤNG TRONG TÌM KIẾM DỮ LIỆU ĐA
PHƯƠNG TIỆN
Mã số: QC.08.01
Chủ nhiệm đề tài: Nguyễn Hải Châu
Hà Nội - 2009
Đ Ạ I H Ọ C Q U Õ C G IA HÀ N Ộ I TRUNG TÂM THỔNG TIN THƯ VIỆN
(2)M ục lục
B ả n g g iả i t h í c h c c c h ữ v iế t t ắ t D a n h s c h c n b ộ t h a m g ia t h ự c h iệ n đ ề t i
D a n h m ụ c b ả n g
1 T ó m t ắ t n h ữ n g k ế t q u ả n g h iê n c ứ u c h ín h c ủ a đ ề t i
1.1 Tên đề t i
1.2 Chủ trì đề t i
1.3 Những kết c h í n h
1.3.1 K ết khoa h ọ c
1.3.2 K ết phục vụ thực t ế
1.3.3 K ết đào t o
1.3.4 K ết nâng cao tiềm lực khoa học
1.3.5 T ình hình sử dụng kinh p h í
2 B o c o t ố n g k ế t 2.1 Đ ặ t vấn đ ề
2.2 Tổng quan tìn h hình nghiên cứu chuỗi đặc t r n g
2.3 Các phương pháp xác định chuỗi đặc t r n g
2.3.1 Các loại đặc trư ng chuỗi tín hiệu âm t h a n h
2.3.2 Phương pháp cửa sổ g ố i 10
2.3.3 Phương pháp cửa sổ gối kết hợp học m y 10
2.3.4 Phương pháp D D A 10
2.3.5 Phương pháp dựa trê n w a v e le t 11
2.4 M ột số ứng dụng chuỗi đặc t r n g 11
2.4.1 G iám sát p h t t h a n h 11
2.4.2 Các ứng dụng liên thông âm t h a n h 11
2.4.3 Các lọc ứng dụng dùng chung f i l e 12
2.4.4 T ự động tố chức th viện âm n h c 12
2.4.5 M ột số ứng dụng k h c 12
2.5 Mục tiêu nội dung nghiên cứu đề tà i 12
2.6 Dịa điểm , thời gian phương tiện nghiên c ứ u 12 2.7 K ết q u ả nghiên c ứ u
2.7.1 K ết khoa h ọ c
(3)B ảng giải thích chữ v iế t tắ t
Bảng 1: Giải thích chữ viết tắ t C h ữ v iế t t ắ t G iả i th íc h
BFCC Bark Frequency C epstrum Coefficients DDA D istortion D iscrim inant Analysis FLAC Free Lossless Audio Codec LDA Linear Discrim inant Analysis
M FCC Mel-Frequency C epstrum Coefficients M PEG Movie P icture E xperts G roup
MP3 M PEG-1 Audio Layer
O PC A Oriented Principal C om ponents Analysis PC A Principal C om ponents Analysis
WAV Waveform Audio Form at
(4)M ục lục
B ả n g g iả i t h í c h c c c h ữ v iế t t ắ t D a n h s c h c n b ộ t h a m g ia t h ự c h iệ n đ ề t i
D a n h m ụ c b ả n g
1 T ó m t ắ t n h ữ n g k ế t q u ả n g h iê n c ứ u c h ín h c ủ a đ ề t i
1.1 Tên đề t i
1.2 Chủ trì đề t i
1.3 Những kết c h í n h
1.3.1 K ết khoa h ọ c
1.3.2 K ết phục vụ thực t ế
1.3.3 K ết đào t o
1.3.4 K ết nâng cao tiềm lực khoa học
1.3.5 T ình hình sử dụng kinh p h í
2 B o c o t ổ n g k ế t 2.1 Đ ặt vấn đ ề -
2.2 Tổng quan tìn h hình nghiên cứu chuỗi đặc t r n g
2.3 Các phương pháp xác định chuỗi đặc t r n g
2.3.1 Các loại đặc trư ng chuỗi tín hiệu âm t h a n h
2.3.2 Phương pháp cửa sổ g ố i 10
2.3.3 Phương pháp cửa sổ gối kết hợp học m y 10
2.3.4 Phương pháp D D A 10
2.3.5 Phương pháp dựa trẽ n w a v e le t 11
2.4 M ột số ứng dụng chuỗi đặc t r n g 11
2.4.1 G iám sá t p h t t h a n h 11
2.4.2 Các ứng dụng liên thông âm t h a n h 11
2.4.3 Các lọc ứng dụng dùng chung f i l e 12
2.4.4 T ự động tổ chức th viện âm n h c 12
2.4.5 M ột số ứng dụng k h c 12
2.5 M ục tiêu nội dung nghiên cứu đề tà i 12
2.6 D ịa diểm, thời gian phương tiện nghiên c ứ u 12
2.7 K ết nghiên c ứ u 13
2.7.1 K ết khoa h ọ c 13
(5)M ự c LỰC
2.7.2 K ết đào tạo 2.8 Thảo luận
2.9 Kết luận kiến nghị T i liệ u t h a m k h ả o
(6)B ảng giải thích chữ v iết tắ t
Bảng 1: Giải thích chữ viết t ắ t C h ữ v iế t t ắ t G iả i th íc h
BFCC Bark Frequency C epstrura Coefficients DDA D istortion D iscrim inant Analysis FLAC Free Lossless Audio Codec LDA Linear Discrim inant Analysis
M FCC Mel-Frequency C epstrum Coefficients M PEG Movie P icture E xperts G roup
M P3 M PEG-1 Audio Layer
O PC A O riented Principal C om ponents Analysis PC A Principal Com ponents Analysis
(7)D anh sách cán th a m gia thự c hiện đề tài
Bảng 2: Đ anh sách cán bộ, cộng tá c viên, học viên cao học sinh viên th a thực dề tài
S T T H ọ v t ê n H ọ c h m h ọ c v ị
C q u a n c ô n g t c
1 Nguyễn Hải C hâu (chủ nhiệm đề tài)
TS K hoa Công nghệ th ô n g
trư ờng Đ ại học Công ng Đ H Q G H N
2 Nguyễn Ngọc Hóa TS K hoa Cơng nghệ th n g
trư ờng Dại học Công ng ĐH Q G H N
3 Đỗ Thị M inh V iệt ThS C entre of Excellence, Nor gian U niversity of Science t Technology (N TN Ư ), Norwa P hạm Cẩm Ngọc CN K hoa Công nghệ thông
trường Dại hoc Công ng DHQGHN
5 Nguyễn T hị T hùy Linh CN K hoa Công nghệ th ô n g 1 trường Dại hoc Công ng
đ h q g h n
(8)D anh m ục bảng
1 Giải thích chữ viết t ắ t D anh sách cán bộ, cộng tá c viên, học viên cao học sinh viên th am
(9)Tóm tắ t kết n g h iên C1
chính đề tài
1.1 Tên đề tài
C h u ỗ i đ ặ c t r n g v ứ n g d ụ n g t r o n g t ìm k iế m d ữ liệ u đ a p h n g tiệ] (Acoustic fingerprint and its application in searching m ultim edia content)
M ã số: QC.0fs.01
1.2 Chủ trì đề tài
Người chủ trì: TS Nguyễn Hải Châu
Cơ quan: Trường Dại học Cóng nghệ Dại học Quốc gia H Nội Dịa chỉ: 144 Xuân Thủy, c ầ u Giấy, Hà Nội
Diện thoại: 04-37547813
1.3 N h ữ n g kết chính
1.3.1 K ết khoa học
• Chúng tơi nghiên cứu nhận dạng âm th a n h dựa trê n chuỗi đặc tru đề x u ất bước đề xây dựn£ m nt hệ thống nhân dạng tro n g thự c tế th nghiệm xâv dưns m ột sở liệu âm th an h , hu ấn luyện ( để trích rú t đặc trưng va th ủ nghiệm tìm kiếm dựa trê n tín hiệu âm vào từ micro với đỏ xác t.ốt Các két nói trê n đ ã trìn h tiế t 01 báo khoa học gửi đcing tạ p chí Tạp chí K hoa học, E Q uor cia Hà Nơi
• UI bân cáo chun de (technical report tổng quan ve rhuỗi đ r tr i th an h COI ứng dụng
(10)1 T Ó M T Ắ T NHỮNG K E T q u ả n g h i ê n c ứ u c h í n h c ủ a d ề t i 7
1.3.2 K ết phục vụ thực tế
D ã hồn th n h chương trìn h th nghiệm tìm kiếm âm th a n h dự a trê n chuỗi đặc trư ng với độ xác cao Bộ chương trìn h có th ể tiếp tục p h t triể n để hoạt động môi trường web
1.3.3 K ết đào tạo
• D ã hướng dẫn tố t nghiệp 02 sinh viên bảo vệ th án g 6/2009 đề tà i tín h to án chuỗi đặc trư ng âm th an h tìm kiếm liệu đ a phương tiện
• Đang hướng dẫn 01 học viên cao học (là m ột th àn h viên thực đề tài) thực đề tài nghiên cứu liên quan đến chuỗi đặc trư ng âm th a n h tìm kiếm nhạc sở liệu đ a phương tiện
1.3.4 K ết nâng cao tiềm lực khoa học
Nghiên cứu th u ậ t toán, phương p háp ứng dụng chuỗi đặc trư ng, đ ã hướng dẫn sinh viên thực tậ p sinh khoa Công nghệ T hông tin trường Dại học Công nghệ vấn đề liên quan đến chuỗi đặc trư ng tìm kiếm liệu đa phương tiện
1.3.5 Tình hình sử dụng kinh phí
(11)Báo cáo tổng kết
2
2.1 Đ ặt vấn đề
Chuỗi đặc trưng âm ( audio fingerprint acoustic fingerprint) - sau đâ; gọi t ắ t chuỗi đặc trưng - m ột tóm tăt m ột chi tín hiệu âm Chuỗi dặc trưng sử dụng để tìm kiếm m ẫu âm th a n h p h t cá m ẫu âm th an h tương tự m ột sở liệu âm th an h
Chuỗi đặc trưng có nhiều ứng dụng, có th ể kể đến: nh ận dạng bà h át, thu âm quảng cáo; giám sá t p h t th an h ; quản lý th viện hiệu ứn âm thanh; nhận dạng video v.v C hính chuỗi đặc trư n g đ ã trở th àn h đc tượng nghiên rứu quan tâm [l]-[27], đồng thời ứng dụng chuỗi đặ trư ng ngày phong phú [28]-[40]
2.2 Tổng quan tìn h hìn h n g h iên cứu chuỗi đặ<
trư ng
Chuỗi đặc trư ng âm th an h ( audio fin g erprint acoustic fingerprint) - sau đâ gọi t ắ t chuỗi đặc trưng - m ột b ản tóm tắt m ột chuỗi tín hiệu âm than? Chuỗi đặc trư ng sử dụng để tìm kiếm m ẫu âm th a n h p h t cá m ẫu âm th an h tương tự m ột liệu âm th anh
Chuỗi đặc trư ng có nhiều ứng dụng, tro n g có th ể kể đến: nhận dạng bỉ h át th u âm, quảng cáo: giám sá t p h t th an h ; quản lý th viện hiệu ứn âm thanh; nh ận dạng video v.v C hính chuỗi đặc trư n g đ ã trở th n h đ( tượng nghiên cứu quan tâm [l]-[27] đồng thời ứng dụng chuỗi dă trư n g ngàv phong phú Ị28]-[40]
Trong báo cáo chúng tơi trìn h bày m ột cách tổng quan phương phá nghiên cứu xác định, so sánh tìm kiếm chuỗi đặc trưng; m ột số ứng dụn đ ã đư<ir triển khai
( 'huõi đặc trư n g nói trê n , m ột tóm t ắ t m ột chuỗi tín hiệ ãm th an h Như có dưcic chuỗi đặc trư ng m ột chuỗi âm th a n h ta cần X£ dựr> - m i't ham / anh xa m ột r-huui bit A vào m ột chuỗi bít A Ị có độ dài nhỏ hơ] Dt sanh mư« tương tự hai chuỏi bit (tín hiệu âm th a n h ' ,4i A chúr
(12)2 B Ả O CÁO TỔNG K Ế T 9
ta so sánh mức độ tương tự hai chuỗi đặc trư ng tương ứng A ìf A 2f ■ c ầ n lưu ý việc so sánh A i t A 2f so sánh nh au tu y ệt đối m ặt to n học m cần có tín h cảm quan Người nghe thường nhận dạng m ột nhạc p h t với chất lượng tín hiệu âm th a n h khác nhau, chẳng h n từ chất lượng âm th an h từ DVD tố t chất lượng âm th a n h p h t qua radio
Do cần có m ột số tiêu chí để đánh giá hàm / nói Sau m ột số tiê u chí thường sử dụng:
• T í n h b ề n v ữ n g : Chuỗi đặc trư ng phải th a y đổi tín hiệu âm th a n h bị suy giảm tín hiệu âm th a n h bị nhiễu, bị méo v.v T ính ch ất làm tăng độ tin cậy nhận dạng âm th a n h môi trư ờng thực, có nhiễu tạ p âm biên độ tín hiệu nhỏ
• T í n h t i n cậy: Chuỗi đặc trư ng cho khả nh ận dạng tro n g nhiều trường hợp
• Đ ộ lớ n c ủ a c h u ỗ i đ ặ c tr ứ n g : s ố lượng b it chuỗi đặc trư n g nhỏ giúp cho tốc độ tìm kiếm cải th iện giảm dung lượng lưu trữ
• Đ ộ m ịn : Độ dài tối thiểu chuỗi âm th a n h (theo đơn vị thời gian) để nhận dạng C hẳng hạn m ột số th u ậ t to án cần chuỗi tín hiệu âm th a n h dài từ 15 đến 30 giây để tín h chuỗi đặc trưng
• T ố c đ ộ t ì m k iế m v k h ả n ă n g m rộ n g : Đây yếu tố quan trọ n g tìm kiếm âm th a n h sở liệu lớn Tốc độ tìm kiếm (search speed) khả mở rộng (scalability) hai yếu tố quan tâm hàng đầu việc triển khai hệ thống tìm kiếm âm th anh
2.3 C ác phương pháp x ác địn h chuỗi đặc trư n g
2.3.1 Các loại đặc trưng chuỗi tín hiệu âm than h
Nguyên tắc chung cho việc xác định chuỗi đặc trư n g trích rú t đăc trư n g từ chuỗi tín hiệu âm th an h Các đặc trư n g m ột b ả n nhạc thường chia th n h hai loại chính: đặc trư n g ngữ nghĩa đặc trư ng phi ngữ nghĩa
Các đặc trư n g ngữ nghĩa thường có tín h trự c quan C hẳng hạn đặc trư n g
th ể loại (genre) âm nhạc, số nhịp m ột phút ( beats per m inute - bpm), điệu tính (mood) đặc trư n g ngữ nghĩa Do đặc trư ng loại m ang tín h to n học,
(13)2 DÁO CÁO TỔXG K Ế T
nnat rnư ng pnap sư aụng c a t cua su - ; , , ất hiến trích rú t đặc trưng [15] Cửa sổ gối sử dụng dê I 11} n in a ie
hệ số dịch thời gian (tim e-shift) t r n g hợp c ũng a long
theo kiểu thời gian A - , „1
Biểu diễn phơ tín hiệu âm th an h xây dựng nhiêu each, cl hạn đo lượng M FCC (Mcl-FYequency C epstrum Coefficients) V t M ị l FVequency Cepstrum Coefficients) J H aitsm a cộng [15] (la sư t ụng ^ , xác định chuỗi đặc trưng TVong báo tác gia nạy, 33 l>ạng ta n sử dụng dải tần 300-2000 Hz mơi 11,6 mill giay lại có m ọt í đặc trưng (sub-fingerprint) tạo m ột frame 370 mill giâỵ D( frame gối nên chuỗi đặc trư ng biến đổi chậm theo thời gian Khi đo so sánh độ tương tự hai nhạc qui so sánh nhiều chuổi đặc trư ng Việc so sánh chuỗi đơn giản dự a vào việc tín h khoang cach Ham] chuỗi đặc trưng tương ứng Ưu điểm phương ph áp tính giản tốc độ tính tốn cao
2.3.3 Phương pháp cửa sổ gối kết hợp học máy
Phương pháp th ứ hai đưa gần đây, xem mở rộng củ a cửa sổ Y Ke cộng [19] sử dụng tả n g tương tự J H aitsm a [15] nhưi thêm tính học máy xác định đặc trư ng M ột đặc điểm quan trọng Y Ke đ ã biểu diễn tín hiệu âm th a n h 1-D m ột ảnh số biểu diễn t không gian hai chiều với trụ c thời g ia n -tầ n số
Kỹ th u ật học m áy Y Ke sử dụng [19] A daB oost, m ộ t kỹ th u ậ t biến ứng dụng thị giác máy, chẳng hạn nh p h t m ặt người t ảnh [26] Y Ke cộng đ ã sử dụng A daB oost cho hệ thống m ình họ đặc trư ng lượng trê n m ột số tầ n số chọn lọc theo thời gian Dộ dài vi số chọn thông qua th u ậ t to n A daB oost Áp dụng th u ậ t to n A dB oost, ( đặc trư ng lựa chọn, từ tạo chuỗi đặc trư n g tương ứng có 3' Khi có yêu cầu tìm kiếm nhạc, hệ th ố n g Y Ke [20] trư c h ết xử lý di âm th a n h vào tương tự [15] để tạ o chuỗi đặc trư n g Sau đó, tín h kh cách Ham m ing chuỗi đặc trư n g để tìm độ tương tự
2.3.4 Phương pháp D D A
Phương pháp th ứ ba [6] sử dụng phương p h p DDA (D istortion D iscrim inant 1
ysis) - m ột phương pháp trích rú t đặc trư n g xem bền vững với
- để xác định chuỗi đặc trưng Các đặc trư n g xác định DDA thường ta p cac đặc trư ng đượr đưa r a tro n g báo J H aitsm a [15] '
19' lạ.1 cho phcp tín h chi đặc trư n g củ a chuỗi tín hiệu dà
C AC phương pháp khác DDA dựa trê n m ột biến th ể phương pháp
(14)2 BÁ O CÁO TỔNG K Ế T 11
(O PC A )
O PCA giả th iế t có m ột phiên tín hiệu bị méo c ủ a m âu huân luyện đê từ tìm đặc trư ng bị biến đổi thực bước tiền xử lý tín hiệu làm giảm nhiễu đến mức tối thiểu tăn g tối đ a mức tín hiệu Ngược lại, phương ph áp PC A (Principal C om ponents Analysis) tìm tậ p vector trự c giao để tă n g tối đ a biến đổi tín hiệu N hư O P C A tìm tậ p vector khơng trự c giao dùng để tín h to án nhiễu Thực nghiệm Burges cộng [6] cho th ấ y chuỗi đặc trư ng xác định phương pháp DDA bị biến đổi với vấn đề thời gian quan trọng bị biến đổi với loại nhiễu khơng có liệu
huấn luyện.
2.3.5 Phương pháp dựa wavelet
Phương pháp tác giả s B aluja M Covell (Google Inc.) p h t triể n [3], [4], [9] dựa trê n tiếp cận Y Ke [19]: áp dụng kỹ th u ậ t lĩnh vực thị giác máy vào việc xây dựng chuỗi đặc trư ng tiếp cận dự a trê n wavelet c Jacob [16] Phương pháp không sử dụng kỹ th u ậ t học m áy m dự a trẽ n tiếp cận wavelet để tăn g tốc độ tìm kiếm sở liệu đ a phương tiện lớn [16] Chuỗi đặc trư ng s B aluja M Covell đề x u ấ t dựa trê n công trìn h J H aitsm a [14], [15] có cải tiến nâng cao để đại diện cho m ẫu tín hiệu âm th a n h có độ dài lớn
2.4 M ột số ứng d ụ n g chuỗi đặc trư n g
2.4.1 Giám sát phát thanh
G iám sá t p h t th a n h (broadcast m onitoring) m ộ t ứng dụng quan trọng chuỗi đặc trư ng [1], [14], [23], [12], [39], [40] TYong giám sá t p h t th a n h truyền thống, quan giám sá t có nhân viên theo dõi trê n kênh p h t th a n h so sánh với chương trìn h p h t để p h t sai sót Các hệ giám sá t p h t th a n h dựa trê n chuỗi đặc trư ng thường có hai loại m áy chủ: M áy chủ giám s t m áy chủ tru n g tâm Máy chủ giám sá t đóng vai trò nhân viên giám s t p h t th a n h truyền thống, theo dõi kênh p h t th a n h báo cáo chuồi đặc trư n g cho m áy chủ trung tâm M áy chủ tru n g tâm sử dụng chuỗi đặc trư n g để tìm kiếm sở liệu sinh báo cáo chương trìn h p h t kênh bị giám sá t
2.4.2 Các ứng dụng liên th ôn g âm thanh
(15)2 DÁO CÁO TỔXG K Ế T
hiện V.V gửi kết cho người dùng Dây ứng dụng r ấ t kho VI tí <
âm sau nhièu lần truyền bị suy giảm có nhiêu n Lieu [ - j , [■ jji [ *)■
2.4.3 Các lọc ứng dụng dùng chung file
Trong ứng dụng dùng chung file, chuỗi đặc trư ng sư dụng đe n h ạn c file âm nhạc có quyen không cho người dùng download file Na 2001 Napster [31] cài đ ặt lọc dựa trê n tên file lọc hoạt động khơi hiệu Do vào tháng 5/2001, N apster sử dụng lọc dự a trê n chuỗi đ trưng Relatable [301
2.4.4 T ự động tổ chức th viện âm nhạc
Chuỗi đặc trưng sử dụng vào việc tự động tơ chức th viện âm nhí Hiện MP3 khuôn dạng file thường sử dụng đé lưu trữ tro n g tl viện âm nhạc Các file MP3 tạ o từ nhiều nguồn khác n h a u siêu I liộu (m eta data) kèm theo tên tác giả, tác phẩm , người th ể hiện, năm th u ĩ không đầy đủ n h ấ t quán Khi chuỗi đặc trư ng sử dụ n g để ho thiộn thông tin nàv [28], [29], [39]
2.4.5 M ột số ứng dụng khác
Chi đặc trưng cịn có rấ t nhiều ứng dụng khác thực tiễn Trong lĩnh V truyền hình, chuỗi đặc trưng đượr sử dụng ứng dụng truyền hình tương tác [11] m khơng cần sử dụng thêm th iế t bị đặc biệt, tự độ p h t thay đoạn quảng cáo [5] K hác hiệt so với công nghệ chuỗi đặc trưng hướng tới ứng dụng đ a phương tiện với mục tiêu nhận dạng dối tượng m khơng cần đến thông tin siêu liệu me w aterm ark
2.5 M ục tiê u nội d u n g n g h iên cứu củ a đ ề tà
Mục tiêu đề tài nghiên cứu chuỗi đặc trư ng âm th an h : T ìm hiểu nghiên cứu sở lý thuyết, phương ph áp th u ậ t toán xác định, so sánh ( kiếm chuỗi đặc trư ng để xác định đư ợ r chuỗi tín hiệu tương tự Trên sớ tìm hiểu phương pháp, th u ậ t to án đ ã có chúng tơi d ã tiến hàn h xây di th nghiệm th àn h cơng ứng dụng tìm kiếm nhạc gốc dựa trê n chuỗi tín h âm th an h đầu vào th u từ micro, từ file âm th a n h với loại định di phong phú M P3, WAV, FLAC, V V
2.6 Đ ịa đ iêm , thời gian phư ơng tiệ n n g h iên C1
(16)2 B Á O CÁO TỔN G K Ế T 13
đến th án g 6/2009 Trong trìn h nghiên cứu chúng tối đ ã sử dụng phương tiện nghiên cứu sau đây:
• K ết nối In tern et trường: dùng vào việc tả i p hần mềm, liệu thử , báo khoa học
• 01 m áy trạ m H P C P U Intel Core Duo E4500 2*2.2G H z/ 2MB C a c h e / C hipset Intel / 2GB D D R / 80GB SATA H D D / 16 in l C ardR eader /In te l GM A 3100 u p to l2 M B / D V D -RW / G igabit N IC / l x P C I Ex - dùng làm server sở liệu th ự c tìm kiếm âm th an h Máy trạ m tra n g bị theo dự án " Tăng cường lực nghiên cứu cho Phịng thí nghiệm chun đề Các Hệ
thống Thơng tin Tích hợp Công nghệ Phần m ề m " năm 2008-2009.
• 02 m áy tín h xách tay, 02 micro 01 loa (do cá n h ân tự tra n g bị)
2.7 K ết n gh iên cứu
2.7.1 K ết khoa học
Chúng tối đ ã đề x u ấ t bước để xây dựng m ột hệ thống nh ận dạng âm th a n h thực tế Chúng đ ã th nghiệm xây dựng m ột sở liệu âm th a n h , huấn luyện liệu để trích rú t đặc trư ng th nghiệm tìm kiếm dự a trẽ n tín hiệu âm th a n h vào từ micro với độ xác tố t Các kết nói trê n đ ã trìn h bày chi tiế t 01 báo khoa học gửi đãng tạ p chí Tạp chí K hoa học (Dại học Quốc gia H Nội) K ết nghiên cứu chúng tối cho th việc triển khai m ột ứng dụng nhận dạng nhạc qua tín hiệu th u từ micro hoàn to àn khả thi
2.7.2 K ết đào tạo
D ã có hai sinh viên thực khóa luận tố t nghiệp theo hướng nghiên cứu đề tài Hai khóa luận đ ã bảo vệ th n h công vào ngày /6 /2 0 K hoa Cõng nghệ T hống tin , trư ờng Đại học Công nghệ, Đại học Q uốc gia H Nội:
1 Bùi T h a n h X uân, Chuỗi đặc trưng âm ứng dụng tìm kiếm nhạc
số, K hóa lu ận tố t nghiệp Đại học, trường Dại học Cõng nghệ, 2009.
2 Vũ T hị Tư, Tìm kiếm liệu âm phương pháp QbH (Q uery by
H um m ing) ứng dụng, K hóa luận tố t nghiệp Đ ại học, trường Đại học Công
nghệ, 2009
2.8 T h ả o luận
C húng tối đ ã đ t kết sau tro n g đề tà i nghiên cứu QC.08.01: • C húng tõi đ ã nghiên cứu tổng quan chuỗi đặc trư n g âm th an h , phương
(17)2 DÁO CÁO TỔNG K Ế T
nghicn cứu p hát triển; ứng dụng giam sa p tìm kiếm liệu đa phương tiện, tạo lọc cac ưng chung file V V
• Chúng tơi xây dựng ứng đụng tìm kiếm th nghiệm dựa m a nguoi Yan Ke [201, m ã nguồn thư viện biến đôi Fourier nhanh ( h t t p : /WWW th viện th ao tác với định dạng liệu video va audio ffm peg (h t t p : / / w w f f m p e g o r g ), chương trình ứng dụng mpgl23
(http://WWW m pgl23.de) dùng để p hát th a n h m ột số định dạng file Ị
WAV V V TVong ứng dụng chúng tơi đ ã chi tiẻ t hóa việc xảy dựng d i
huấn luyện phương pháp kiểm th kết Ưng dụng đ ã th ng cho kốt tố t với việc nhận nhận dạng th u âm nhí mẫu thu qua micro có độ dài 30 giây (Xem chi tiết: báo phụ lục theo)
• Dựa kết nêu trên, chúng tơi đ ã hồn th n h chuẩn t đăng m ột báo (Tạp chí Dại học Quốc gia H Nội) với nội dung liên đến tìm kiếm nhạc sỏ liệu dựa chuỗi đặc trư n g âm tl Ngồi chúng tơi hồn th àn h m ột báo cáo tổ n g quan chuỗ trưng âm th an h ứng dụng tìm kiếm âm nhạc (xem phụ lục báo cáo này)
2.9 K ết luận kiến nghị
(18)Tài liệu tham khảo
[1] E Allam anche, J Herre, Hellm uth, B B ernhard Frobach, M C rem er, Au-
dioID: Towards Content-Based, Identification o f A udio M aterial, 100th AES
Convention, A m sterdam , T he N etherlands, 2001
[2] A Andoni and p Indyk, Near-optimal hashing algorithms fo r approxim ate near
est neighbor in high dimensions, in 47th A nnual IE E E Sym posium on Founda
tions of C om puter Science ( F c s ’06), 2006, pp 459-468
[3] Baluja, Covell, C ontent fingerprinting using wavelets, Proceedings of th e 3rd E uropean Conference on Visual M edia P roduction (C V M P), 2006
[4] S B aluja, M Covell, Audio Fingerprinting: C om bining C om puter Vision & I Data Stream Processing, Proceeding of the IE E E In tern atio n al Conference on
Acoustics, Speech and Signal Processing (IC A SSP), 2007
[5] M Covell, S B aluja, M Fink, Advertisem ent Replacem ent using Acoustic and
Visual Repetition, Proceedings of th e IE E E W orkshop on M ultim edia Signal
Processing, 2006
[6] c Burges, J P la tt, s Ja n a, D istortion D iscrim inant A nalysis fo r A udio F in
gerprinting, IE E E T ransactions on P a tte rn Analysis and M achine In te llig e n c e ,
11 (3), 2003
■[7] P Cano, E B atlle, T Kalker, J H aitsm a, A review o f algorithms fo r audio
fingerprinting, In W orkshop on M ultim edia Signal Processing, 2002.
[8] Y Cheng, M usic Database Retrieval Based on Spectral Sim ilarity, In tern atio n al Sym posium on M usic Inform ation Retrieval (ISM IR) 2001, Bloom ington, USA, O ctober 2001
[9] M Covell, S B aluja, K now n-A udio D etection Using W aveprint: Spectrogram
Fingerprinting B y Wavelet Hashing, Proceedings of th e IE E E Intern atio n al
Conference on Acoustics Speech and Signal Processing (IC A SSP), 2007 [10] A D uda, A N iirnberger, and s Stober, Towards query by h u m m in g /sin g in g on
audio databases, in Proceedings of th e 7th In te rn atio n a l Conference on Music
(19)TÀI LIỆU T H A M KHẢO I
[111 M Fink, M Covell, s Baluja Social- and Interactive-Television Apphcatioj
Based on Real-Time Am bient-Audio Identification, Proceedings of EuroITN
2006
[12] D Fragoulis D., G Rousopoulos, T Panagopoulos, c Alexiou, c Pi paodysseus, On the Autom ated Recognition o f Seriously D istorted M usic
Recordings, IEEE Transactions on Signal Processing, (4), pp 898-908, 200
'13] A Gionis p Indyk R Motwani, Sim ilarity search in high dim ensions via hasi
mg Proceedings of the International Conference on Very Large D atabases, 199'
[14] J Haitsma, T Kalker, J Oostveen, Robust Audio Hashing f o r C ontent Ideni
fication, C ontent Based M ultim edia Indexing 2001, Brescia, Italy, 2001.
[15] J Haitsm a, T Kalker, A Highly Robust Audio F ingerprinting System , Procee< ings of the International Conference for Music Inform ation R etrieval, 2002 [16] c Jacobs, A Finkelstein, D Salesin, Fast M ultiresolution Im age Queryin
Proceedings of SIGG RA PH, 1995
[17] J.-S R Jang and M.-Y Gao, A query-by-singing system based on dynam ic pr
gramming, in Proceedings of the International W orkshop on Intelligent Systen
Resolutions, 2000
[18] J.-S R Jang, C.-L Hsu, and H.-R Lee, Continuous H M M and its enhanceme
fo r singing/hum m ing query retrieval, in Proceedings of th e th Internation
Conference on Music Inform ation Retrieval, 2005
[19] Y Ke, D Hoiem, R Sukthankar, C om puter Vision fo r M usic Jdentificatio Proceedings of the IEEE Com puter Society Conference on C om puter Visit and P a tte rn Recognition (C V PR ), 2005
[20] Y Ke et al., Com puter vision fo r m usic ' identification: server cot h t t p : //www c s emu e d u / y k e / m u s i c r e t r i e v a l / m u s i c r e t r - t a r gz, 2005
[21] K Lem strom, String M atching Techniques fo r M usic R etrieval, Ph.D thes University of Helsinki, 2000
l22] c Meek and w Birm ingham , Applications o f binary classification and adapti boosting to the query-by-hum ming problem, in Proceedings of th e 3rd Interr
tional Conference on Music Inform ation Retrieval, 2002
[23] H Neuschmied H Mayer, E B attle Identification o f A udio T itles on the J
tem et, Proceedings of the International Conference on Web Delivering of Mu
(20)T À I LIỆU T H A M KHẢO 17
[24] J Oostveen, T Kalker, J H aitsm a, Feature E xtraction and a Database Strategy
fo r Video Fingerprinting, 5th International Conference on V isual Inform ation
Systems, Taipei, Taiwan, M arch 2002, published in R ecent advances in Visual Inform ation Systems, LNCS 2314, Springer, Berlin, pp 117-128
[25] R Typke, M usic Retrieval based on Melodic Sim ilarity, Ph.D thesis, Univer- siteit U trecht, 2007
[26] P Viola, M Jones, R obust Real-tim e O bject D etection Proceedings of the International Conference for C om puter Vision, 2001
[27] X Wu, M Li, J Yang, and Y Yan, A top-down approach to melody m atch
in pitch countour fo r query by hum m ing, in Proceedings of th e Intern atio n al
Conference of Chinese Spoken Language Processing, 2006 [28] A uditude website h t t p : //www a u d i t u d e com
[29] ID3M an website h t t p : //www id3m an com [30] R elatable website h t t p : //www r e l a t a b l e com [31] N apster website h t t p : //www n a p s t e r com
[32] W ebsite All M edia Guide h t ://w w w a llm e d ia g u id e c o m /la s s o / [33] h t t p : / / b u s i n e s s m u fin c o m /e n /p r o d u c ts /
m u f in - a u d io id - m u s ic - r e c o g n itio n - a n d - m u s ic - m o n ito r in g / [34] W ebsite G racenote h t t p : //www g r a c e n o t e com/
[35] W ebsite Last.fm h t t p : //www l a s t fm /
[36] W ebsite Music Brainz h t t p : / / m u s i c b r a i n z o r g / [37] W ebsite Shazam h t t p : / /www shazam com/
[38] W ebsite T unatic h t t p : / / w w w w i l d b i t s c o m / t u n a t i c / [39] Moodlogic website h t t p : //www m o o d lo g ic com [40] Y acast website h t t p : //www y a c a s t com
đ i h ọ c q u ố c G 'a Hà Nộ '
(21)Phụ lục
Phụ luc gồm có:
• 01 báo đề tài gửi đăng Tạp chí Khoa học, Đại học Quốc gia H Nội • 01 báo cáo tổng quan chuỗi đặc trư ng âm th an h cán th a m gia đề
tài thực
• 02 bìa luận văn tốt nghiệp đại hoc năm 2009 thực theo hướng nghiên cứu đề tài
• Bản Dề cương Hợp đồng thực đề tài nghiên cứu đ ã phê duyệt • Bán cáo tóm tắ t kfit nghiên cứu đề tài Tiếng Anh
• Phiếu dăng ký kết nghiên cứu KHCN để tra n g cuối báo cáo tổng két
(22)Xây dụ ng ứng dụng tìm kiếm âm nhạc dựa chuỗi đặc trung âm thanh
Phạm Cẩm Ngọc, Nguyễn Hải Châu
Khoa Công nghệ Thông tin,Trường Đại học Công nghệ Đại học quốc gia Hà Nội
Email: phamcamngoc@gmail.com, chaunh@vnu.edu.vn
Tóm tắt
Trong báo nghiên cứu, đề xuất xây dựng ứng dụng thừ nghiệm để tìm kiếm nhạc dựa ừên liệu tín hiệu âm thu từ micro Hiện cỏ nhiều phương pháp tìm kiếm âm nhạc dựa tín hiệu âm thanh, sử dụng chuỗi đặc trumg âm kết hợp với kỹ thuật học máy thống kê để xây dựng ứng dụng Trên sở nghiên cứu Yan Ke việc áp dụng kỹ thuật thị giác máy để giải vấn đề tìm kiếm âm nhạc, chúng tơi tập trung xây dựng liệu huấn luyện cho hệ thống, đạt kết khả quan so với liệu trước Yan Ke, với độ xác tìm kiếm lên tới 98%
1 Giói thiệu
Hiện nay, có nhiều phương pháp tiếp cận khác để giải tốn tìm kiếm âm nhạc Hai phương pháp điển hình ứng dụng rộng rãi thực tế tìm kiếm dựa chuỗi đặc trưng âm (fingerprint) cùa nhạc tìm kiểm dựa giai điệu hát Một hệ thống tìm kiếm âm nhạc dựa fingerprint xem xét sở liệu hát tập fingerprint, việc tìm kiếm thơng tin hát tuơng ứng với việc tìm kiếm fingerprint phù hợp tập fingerprint Khi sử dụng hệ thống tìm kiểm âm nhạc kiểu này, chẳng hạn Tunatic [10] hay Shazam [9], người sử dụng gửi nhạc thu âm qua micro từ máy tính cá nhân cho server nhận kết trả thông tin liên quan đến hát gốc
Hệ thống tìm kiếm dựa giai điệu hay cịn gọi Query by humming (Qbh) hệ thống phân loại nhạc theo tên hát, nghệ sỹ biểu diễn,
(23)lác giả hát thể loại Hệ thống nhận đâu vào giai điẹu cua cac ban nhạc so sánh nó với giai điệu các nhạc khác sơ dư liẹu roi đưa ra
một danh sách sẳp thứ tự hát có giai điệu giong VƠI ban nhạc đo nhat
Một hệ Query by humming kiểu Musipedia [11] hay Midomi [12] cho phép người dùng nhập vào giai điệu hát theo nhiêu cach khac huýt sáo, sử dụng bàn phím piano ảo, vẽ nôt nhạc hay theo kiêu contour search
Từ thực tế kết hợp với việc nghiên cứu phương pháp tìm kiêm âm nhạc nghiên cứu phổ biến nay, đặc biệt phương phap chuoi đặc trưng âm kết hợp với học máy thông kê cùa Yan Ke [6], [7], chung tiến hành xây dựng hệ thống tìm kiêm âm nhạc dựa fingerprint Mỗi hát thêm vảo sở liệu, hệ thống lưu lại trường thông tin hát tên tác giả, ca sỹ thể hiện, thể loại nhạc đồng thời thực biến đổi Fourier tính tốn càn thiết để trích fingerprint tương ứng với hát lun trữ trường đặc biệt, trường fingerprint Khi người sử dụng gửi truy vấn nhạc thu âm tới hệ thống, trước tiên hệ thống thực phương pháp tiền xử lý lọc nhiễu để khử tiếng ồn, tăng âm lượng thu âm hát, sau tiến hành tính tốn fingerprint bàn nhạc đó, tim kiếm sở liệu fingerprint gần giống với đưa kết danh sách thứ tự hát gốc với thơng tin hữu ích kèm theo
2 Xây dựng th nghiệm hệ thống
Khi nhận nhạc thu âm mà nhiều lý khác bị nhiễu thu âm mơi trường có nhiều tiếng ồn, thu âm với micro chât lượng thâp, người sử dụng muốn hệ thống đưa cách nhanh nhạc thuộc hát gốc
Đẽ xây đựng hệ thống fingerprint đáp ứng yêu cầu trên, Yan Ke [7] chuyên đơi tốn cân giải qut sang tốn lĩnh vực khác có lời giải, thị giác máy Mới nghe qua, vấn đề phạm vi âm khơng có mơi liên hệ với lĩnh vực computer vision Trong lĩnh vực âm thanh, người ta cân phải xử lý tín hiệu 1-D theo thời gian, cịn computer vision, mục đích nhà phát triển đưa hình anh 2-D la) từ khung cảnh 3-D Tuy nhiên, động lực thúc đẩy hướng tiẽp cận này, gần đây, nhà nghiên cứu thường sử dụng hình
(24)ảnh 2-D liên tục theo thời gian (spectrograms) phân tích âm giọng nói nhằm mục đích trực quan hóa hình ảnh
Khi cài đật hệ thống, việc biên dịch mã nguồn server xây dựng sở liệu, thu âm hát, chia hát thành snippet để tạo liệu huấn luyện thực hệ điều hành Linux, đồng thời sử dụng thêm sổ thư viện sẵn có fftw3 (fftw.org), ffmpeg (ffmpeg.org) m pgl23
Hệ thống xây dựng gồm hai thành phần: chương trình giao diện người sử dùng (UI) viết Java 1.4 chương trình server nhận dạng hát (MIS) viết C++ Phía UI thực gửi truy vấn tới MIS qua TCP/IP socket, hai dịch máy hay máy khác Nếu không định, cổng mặc định 2000 Để kiểm nghiệm hệ thống, cho UI tự động gửi liên tục truy vấn nhạc thu âm tới server, sau đỏ nhận kết trả tên hát gốc, tiến hành kiểm tra tính đắn ghi lại kết cho mục đích thống kê sau
2.1 Xây dụng sở liệu fingerprint
Hai chương trình sử dụng để xây dựng sờ liệu khóa makekeys builddb Chương trình nhận đầu vào danh sách file nhạc định dạng WAV, thực tính tốn khỏa (các fingerprint) cho hát, sau ghi khóa vào thư mục chung chứa khỏa Để
chạy được, chương trình cần thư viện cod ew av.cc - chuyển đổi file
WAV thành dạng bit sigproc.cc - chứa hầu hểt mã nguồn cho xử lý tín hiệu Chương trình thứ hai sừ dụng thư viện keypointdb.cc - quản lý sở liệu khóa directhash.cc - xây dựng bảng băm trực tiếp tất khóa sờ liệu khóa Chương trình đọc danh sách khóa xây dựng sở liệu từ tập hợp khóa
Tuy nhiên, thực tế, việc lưu trữ file nhạc định dạng WAV gặp nhiều khỏ khăn kích thước file nhạc lớn, kết hợp sử dụng thư viện ffmpeg cải tiến chương ưình sinh khóa để hệ thống tính khóa từ tập hát định dạng MP3
2.2 Xây dụng liệu huấn luyện cho việc tìm kiếm
Để xây dựng sở liệu cho việc tìm kiểm, trước hết cần phải cỏ tập hát thu âm mơi trường có nhiều nhiễu Tập
(25)hát thu âm bải hát gốc cùa nỏ sau chia cac snippet ngắn (30 giây cho snippet) Các snippet tương ứng sau thực trích rút đặc trưng so sánh với đê tạo thành tạp dư liẹu học Chung xây dựng chương trình giúp cho việc xây dựng liẹu huan luyẹn thuận tiện
• Chương trình balchrec: sử dụng thư viện ffmpeg mpg 123 thực tự dộng mở thu âm lại hát từ đâu đên ket thuc, ghi chúng vào thư mục hát thu âm
• Chương trinh batchsplit: sử dụng thư viện ffmpeg đế chia nhỏ hát thành snippet theo khoảng thời gian (thường 30 giây)
• Chương trình emtraining: tự động đọc đanh sách snippet gốc snippet thu âm, tính tốn khóa cho snippet này, sau tiến hành xây dựng tập liệu học
Trong trình xây dựng liệu huấn luyện, lựa chợn tập liệu học dược phân loại theo sổ tiêu chí thể loại nhạc để tạo nên liệu huấn luyện khác Các snippet dùng làm liệu học snippet truy vấn thu âm qua micro chất lượng khơng tốt mơi trường có nhiều tiếng ồn gây nhiễu Chúng tiến hành chạy chương trình ứng dụng theo danh sách snippet thu âm để đưa đánh giá tổng quan trình học cùa hệ thống
3 Ket thực nghiệm
Chúng xây dựng hệ thống nhận đạn^ âm dựa chuỗi đặc trưng với sở liệu cỏ 597 hát tiến hành kiểm tra độ xác việc tim kiêm hai tập liệu vào T] T2 gồm snippet lựa chọn ngâu nhiên từ sở liệu 597 hát nói Tập liệu T | bao gồm 956 snippet thu âm môi trường nhiều nhiễu (tiếng ồn ban ngày khu tập thê, tiêng rè loa micro chất lượng tiếng gió tạo từ quạt máy); T? bao gơm tồn snippet T| tiền xừ lý cách tăng biên độ tín hiệu khơng khử nhiễu
Chúng tiên hành kiêm tra kêt thực nghiệm ba liệu huấn luyện: liệu huấn luyện cùa Yan Ke (gọi tắt YanKe) hai liệu huân luyện tạo (gọi tẳt H L|, HL2) Bộ liệu huấn luyện HL|
(26)không chứa snippet tập liệu Ti T2, HL2 có sơ snippet nẳm Tị
Khi chạy chương trình, với truy vấn snippet thu âm mà chưa qua tiền xử lý (T |), độ xác việc tìm kiếm tương ứng với liệu huấn luyện YanKe, HL1, HL2 86.7%, 89.5% 90% Đồng thời trình thực nghiệm, nhận thấy thực việc tiền xử lý nhạc truy vẩn cách tăng thêm biên độ tín hiệu, độ xác kết tìm kiếm đạt tăng lên đáng kể Kiểm tra với tập liệu T2, thu kết tương ứng sau 94.3% với liệu học Yan Ke, 98% với HLi HL2 (hình 1)
Biểu đồ so sánh kết thực nghiệm vói dữ liệu huấn luyện khác nhau
□ Y anK e C3HL1 □ HL2
T I T2
Hình Biểu đồ so sánh kết thực nghiệm với liệu học
Như vậy, liệu huấn luyện HLi HL2 cho kết thực nghiệm tốt hẳn so với liệu học cùa Yan Ke tập liệu vào T |, T2 Trong tương lai, tiếp tục phát triển mờ rộng hệ thống, tiến hành cải tiến liệu huấn luyện cùa cách thêm liệu học, xác định biên độ tín hiệu phủ hợp với snippet huấn luyện để việc học có hiệu Bên cạnh đó, chúng tơi có biện pháp tiền xử lý truy vấn đầu vào lọc nhiễu, điều biên tín hiệu tới tần số thích hợp
4 Kết luận
Trong báo cáo chúng tơi trình bày phương pháp nhận dạng âm theo chuỗi đặc trưng âm (fingerprint) bước xây dựng hệ thống nhận dạng âm ứng dụng thực tế với độ xác
(27)khả quan Trong xu hướng phát triển cùa ứng dụng tìm kiếm âm hướng nghiên cứu cỏ tính thời sự, ý nghĩa khoa học khả ứng dụng thực tiễn cao
Lời cảm ơn Cơng trình tài trợ phàn từ đề tài nghiên cứu khoa học mang mã sổ QC.08.01, Đại học Quôc gia Ha Nọi
Tài liệu tham khảo
[1] S Baluja, M Covell, Content fingerprinting using wavelets, Proceedings of the 3rd European Conference on Visual Media Production (CVMP), 2006 [2] S Baluja, M Covell, Audio Fingerprinting: Combining Computer Vision &
Data Stream Processing, Proceeding o f the IEEE International Conference on
Acoustics, Speech and Signal Processing (ICASSP), 2007
[3] c Burges, J Platt, s Jana, Distortion Discriminant Analysis f o r Audio
Fingerprinting, IEEE Transactions on Pattern Analysis and Machine
Intelligencve, 11 (3), 2003
[4] J Haitsma, T Kalker, J Oostveen, Robust Audio Hashing fo r Content
Identification, Content Based Multimedia Indexing 2001, Brescia, Italy, 2001.
[5] J Haitsma, T Kalker, A Highly Robust Audio Fingerprinting System, Proceedings of the International Conference for Music Information Retrieval,
2 0 2.
[6] Y Ke, D Hoiem, R Sukthankar, Computer Vision fo r Music Identification, Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2005
[7] Y Ke et al., Computer vision fo r music identification: server code,
http://w w w cs.cm u.edU /~yke/m usicretrieval/m usicretr-l.0.tar.gz, 20
[8] M Covell, S Baluja, Known-Audio Detection Using Waveprint:
Spectrogram Fingerprinting By Wavelet Hashing, Proceedings o f the IEEE
International Conference on Acoustics, Speech and Signal Processing(ICASSP), 2007
[9] Website Shazam http:, www.shazam.com/
[10] Website Tunatic http- www.wildbits.com/tunatic-[11] Website Musipedia http: www.musinedia.nrp,
[12] W ebsite M idomi littp: WWW midom i.com /
(28)Chuỗi đặc trưng âm ứng dụng tìm kiếm liệu đa
phương tiện
Nguyễn Hải Châu Khoa Công nghệ thông tin
Trường Dại học Công nghệ, Dại học Quốc gia Hà Nội
Tóm t ắ t
Trong báo cáo này, chúng tơi trình bày chuỗi đặc trưng âm (audio fingerprint): Các khái niệm, phương pháp xác định tìm kiếm, so sánh chuỗi đặc trưng âm để tìm mức độ tương tự chuỗi tín hiệu âm lĩnh vực ứng dụng phong phú chuỗi đặc trưng âm
1 M đầu
Chuỗi đặc trư n g âm th a n h ( audio fingerprint acoustic fingerprint) - sau đây gọi t ắ t chuỗi đặc trư ng - m ột tóm tắt m ột chuỗi tín hiệu âm th an h Chuỗi đặc trư n g sử đụng để tìm kiếm m ẫu âm th a n h p h t m ẫu âm th a n h tương tự tro n g m ột sở liệu âm th an h
Chuỗi đặc trư ng có nhiều ứng dụng, có th ể kể đến: nhận dạng h t, th u âm, quảng cáo; giám sá t p h t th an h ; quản lý th viện hiệu ứng âm th an h ; nh ận dạng video v.v C hính chuỗi đặc trư n g đ ã trở th n h đối tượng nghiên cứu quan tâm [l]-[27], đồng thời ứng dụng chuỗi đặc trư n g ngày phong phú [28]-[40]
Trong báo cáo này, chúng tơi trìn h bày m ột cách tổng quan phương ph áp nghiên cứu xác định, so sánh tìm kiếm chuỗi đặc trưng; m ột số ứng dụng đ ã triển khai
2 M ộ t số khái n iệm chuỗi đặc trư n g
Chuỗi đặc trư ng, đ ã nói trên, m ột tóm t ắ t m ột chuỗi tín hiệu âm th a n h N hư để có chuỗi đặc trư ng m ột chuỗi âm th an h , t a cần xây dựng m ột hàm / ánh xạ m ột chuỗi bit A vào m ột chuỗi b A Ị có độ dài nhỏ Dể so sánh mức độ tương tự hai chuỗi b it (tín hiệu âm th a n h ) A ì A 2, chúng t a so sánh mức độ tương tự hai chuỗi đặc trư ng
(29)tương ứng A h A 2/ c ầ n liru ý việc so sánh A y, yl2, khơng pliàì so sánh tuyêt dối m ặt toán học mà cân có tín h cam quan Ngươi
nghe thường nhận dạng bàn nhạc phát VƠI chat ượng
tín hiệu âm th an h khác nhau, chẳng hạn từ chất lượng âm th an h tư D to t chất lượng âm phát qua rađio
Do cần có số tiêu chí để đánh giá hàm / nói Sau đa) la m ọt số tiêu chí thường đươc sử dụng:
• T ín h b ề n vữ ng: Chuỗi đặc trưng phải thay dơi tín hiệu âm th an h bị suy giảm tín hiệu âm bị nhiễu, bị méo v.v T ính chat naỵ làm tăng độ tin cậy nhận dạng âm th a n h môi trường thực, co nhiêu tạp âm biên độ tín hiệu nhỏ
• T ín h t i n cậy: Chuỗi đặc trưng cho khả nhận dạng nhiều trường hơp
• D ộ lớn c ủ a ch u ỗ i đ ặ c trư n g : số lượng bit chuỗi đặc trư n g nhỏ giúp cho tốc độ tìm kiếm cải thiện giảm dung lượng lưu trữ • D ộ m ịn: Dó dài tối thiểu chuỗi âm th an h (theo đơn vị thời gian) để
có thể nhận dạng Chẳng hạn số th u ậ t tốn cần chuỗi tín hiệu Am dài từ 15 đến 30 gicây để tín h chuỗi đặc trưng
• T ố c đ ộ tìm k iế m k h ả n ă n g m rộ n g : Dây yếu tố quan tìm kiém âm sở liệu lớn Tốc độ tìm kiêm (search speed) khả mở rông đưcic (scalability) hai yếu tố dưưc quan tám hang đảu việc triển khai hệ thống tìm kiếm fun
3 Các phương pháp xác địn h chuỗi đặc trư n g
3.1 Các loại đặc trưng chuỗi tín hiệu âm thanh
Nguyên tắc chung cho việc xác định chuỗi đậc trư ng trích rú t đặc trưng từ chuỗi tín hiệu âm Các đặc trưng m ột nhạc thường chia th àn h hai loại chính: đăc trưng ngữ nghĩa đặc trư n g phi ngữ nghĩa
Các đặc trưng ngữ nghĩa thường co tín h trự c quan C hăng hạn d ặ f trưng th i loạt [genre] m nhạc, số nhip m ột phút ( beats per m inute -
bpm) đ ự u tinh (mood) đặc trưng ngữ nghĩa Do đặc trư ng loại
ít m ang tính tốn học, ncn thường sử dụng để xác định chuỗi đặc trư ng nỏ khơng xác nhiều gắn với quan điểm cá nhân (chẳng hạn đặc trưng thê loại) Bơi tậ p tru n g vào việc p h â n tích th u ậ t toán, phương pháp xac định chuỗi đcic trưng dựa trê n đặc trư ng phi ngữ nghĩa Hi(.‘n có b ‘>n phương pháp để xấc định chuỗi đặc trưng dựa vào đác tiư n r plii ngữ nghĩa Do phương pháp: rử a sổ gói [15], phương p h p ^ Ke (lựa > ứa sổ Rối kpt help với hnc m áv '19 , phương ph áp phán tích
(30)b iệt số méo tín hiệu DDA [6] phương ph áp dự a trê n wavelet kết hợp với kỹ th u ậ t lĩnh vực thị giác m áy [3], [4], [16] Sau ý tưởng từ n g phương pháp
3.2 Phương pháp cửa sổ gối
C ửa số gối (overlay window) phương pháp xác định chuỗi đặc trư ng phổ dụng n h ất Phương pháp sử dụng cửa số gối chuỗi tín hiệu âm th a n h để trích r ú t đặc trư ng [15] C ửa sổ gối sử dụng để trì tín h b ấ t biến hệ số dịch thời gian (tim e-shift) tro n g trường hợp chúng t a không th ể so sánh theo kiểu thời gian
Biểu diễn phổ tín hiệu âm th an h có th ể xây dựng nhiều cách, chẳng hạn đo lượng M FCC (Mel-Frequency C epstrum Coefficients) B FC C (B ark Frequency C epstrum Coefficients) J H aitsm a cộng [15] sử dụng B FC C để xác định chuỗi đặc trưng Trong báo tác giả này, 33 băng tầ n B FC C sử dụng dải tầ n 300-2000 Hz 11,6 mili giây lại có m ột chuỗi đặc trưng (sub-fingerprint) tạo m ột fram e 370 mili giây Do frame gối nên chuỗi đặc trư ng biến đổi chậm theo thời gian Khi việc so sánh độ tương tự hai nhạc qui so sánh nhiều chuỗi đặc trư ng Việc so sánh chuỗi đơn giản dự a vào việc tín h khoảng cách Ham m ing chuỗi đặc trưng tương ứng Ưu điểm phương ph áp tín h đơn giản tốc độ tín h to n cao
3.3 Phương pháp cửa sổ gối kết hợp học máy
Phương p h p th ứ hai đư a gần đây, xem mở rộng cửa số gối Y Ke cộng [19] sử dụng tản g tương tự J H aitsm a [15] có th êm tín h học m áy xác định đặc trưng M ột đặc điểm quan trọng nữ a Y Ke đ ã biểu diễn tín hiệu âm th a n h 1-D m ột ảnh số biểu diễn không gian hai chiều với trụ c thời g ia n -tầ n số
Kỹ th u ậ t học m áy Y Ke sử dụng [19] A daB oost, m ột kỹ th u ậ t phổ biến tro n g ứng dụng thị giác máy, chẳng hạn p h t m ặt người ả n h [26] Y Ke cộng đ ã sử dụng A daB oost cho hệ thống m ình học đặc trư n g lượng trê n m ột số tầ n số chọn lọc theo thời gian Dộ dài tầ n số chọn thông qua th u ậ t to án AdaB oost Áp dụng th u ậ t to án A dB oost, có 32 đặc trư ng lựa chọn, từ tạo chuỗi đặc trư n g tương ứng có 32 bit Khi có u cầu tìm kiếm nhạc, hệ thống Y Ke [20] trư ớc hết xử lý liệu âm th a n h vào tương tự [15] để tạo chuỗi đặc trư n g Sau đó, tín h khoảng cách H am m ing chuỗi đặc trư n g để tìm độ tương tự
(31)3.4 Phương pháp DDA
Phương pháp thứ ba fG sử dụng phương pháp DDA (D istortion D iscrim inant Analysis) - phương pháp trích rút đặc trưng xem bén ' ưns với nhiều - để xác định chuỗi đặc trưng Các đặc trưng xác đinh bơi DDA thường phức tạp cár đặc trưng đưa báo cua J Haitsm a [15] Y Ke [19j lại cho phép tính chuỗi đặc trư ng cùa rác chuỗi tín hiệu dài phương pháp khác DDA dựa m ột biến thể phương pháp LDA (Linear Discriminant Analysis) gọi O riented Principal Components Analysis (OPC A )
OPCA giả thiết có mơt phiên tín hiệu bị méo m ẫu huấn luyện để từ tìm dặc trưng bị biến đổi thực bước tiền xử lý tín hiệu làm giảm nhiễu dến mức tối thiểu tăn g tối đa mức tín hiệu Ngược lại, phương pháp PCA (Principal Com ponents Analysis) tìm tậ p vector trực giao để tang tối đa biến đổi cùa tín hiệu Như O PCA tìm thp cãc vector khơng trực giao dùng để tính tốn nhiễu Thực nghiệm Burgos vã cár công [6] cho thấy chuỗi đậc trưng xác định phương pháp DDA bị biến đổi với vấn dề thời gian quan trọng bị
biến dõi với loại nhicu khơng có liệu huấn luyện.
3.5 Phương pháp dựa wavelet
Plníơng pháp cár tái giã s Baluja M Covell (Google Inc.) p h t triển [3], [4], [9] (lựa tiếp cận cùa Y Ke [19]: áp dụng kỹ th u ậ t lĩnh vực thi giác máy vào việc xây dựng chuỗi đặc trưng tiếp cận dựa trẽn wavolot cùa Jacob [líỉị Phương pháp nàv khơng sử dung kỹ thuật, học máy m di.fa tren tiép cận wavelet dể tăng tốc độ tìm kiếm sở liệu đ a phương tiện lớn [16] Chuỏi đ ả r trưng s Baluja M Covell đè x u ấ t dựa công trình cùa J Haitsm a [14], [15] nhung có cải tiến náng cao để có th ể đại diộn cho mẫu tín hiệu âm có đo dài lớn
4 M ột số ứng dụng chuỗi đặc trưng
4.1 Giám sát phát thanh
Giám sá t p hát ( broadcast monitoring) m ỗt ứng dụng quan trọng chuỗi dàc trưng [1], [14], [23], [12], [39], [40] Trong giám sát p h t th an h truyen thống, quan giám sat có r r nhân viên theo dõi kênh p h át th an h so sánh với chương trình p hát để phát sai sót Các hệ giám sá t p h t th an h dựa chuỗi đặc trưng thường có hai loại m áy chủ: Máy chủ giám sá t va III.IV uhu truiiR tam May chủ giám sát dóng vai trị nhân viên giám sat cua phat truyèn fhi.ne theo dõi kênh p h t th an h báo c u chui II (ỉ tc trưng cho máy chủ trung tâm Máy chủ tru n e tâm sử dụng ■ huui cl» tiư ng nav tìm kiem crt sỡ liêu sinh điírtr háo VI ihưiin trm h pha*, UM cáo ki-nh hị giáin sát
(32)4-2 Các ứng dụng liên thông âm thanh
Cac ưng dụng liên thông âm th a n h ( connected audio) th u ậ t ngữ chung
ac ưng dụng dành cho người dùng có liên quan tới âm thanh/âm nhạc
1 cac thong tin liên quan Một ví dụ đặc trư ng n h ấ t ứng dụng tìm kiếm ^an n lạc qua diện thoại di động Người dùng u nghe b ản nhạc p h t qua loa, Ovic ( phat muốn biết tê n nhạc, ca sĩ th ể Người gọi lẹn thoại đến số điện thoại dịch vụ để nhạc th u qua điện thoại c ược truyen tới server chứa sở liệu âm nhạc Server vào chuỗi đặc nrưil& đê tìm tên nhạc, ca sĩ th ể V V gửi kết cho người dùng
1- ay a mọt ứng dụng rấ t khó tín hiệu âm th a n h sau nhiều lần truyền bị suy giảm có nhiều nhiễu [32], [35], [37], [38]
4.3 Các lọc ứng dụng dùng chung file
Trong ứng dụng dùng chung file, chuỗi đặc trưng sử dụng để nhận r a cac file âm nhạc có quyền khơng cho người dùng download file N ăm 2001, N apster [31] cài đ ặ t lọc dựa trê n tên file lọc h o t động khơng hiệu Do vào th án g 5/2001, N apster đ ã sử dụng lọc dự a chuỗi đặc trưng R elatable [30]
4.4 T ự động tổ chức th viện âm nhạc
Chi đặc trư ng sử dụng vào việc tự động tổ chức th viện âm nhạc Hiện MP3 khuôn dạng file thường sử dụng để lưu trữ th viện âm nhạc Các file M P3 tạ o từ nhiều nguồn khác siêu liệu (m eta data) kèm theo tên tác giả, tá c phẩm , người th ể hiện, năm th u âm không đầy đủ n h ấ t quán Khi chuỗi đặc trư n g sử dụng để hồn thiện thơng tin [28], [29], [39]
4.5 M ột số ứng dụng khác
Chuỗi đặc trư n g có r ấ t nhiều ứng dụng khác thực tiễn Trong lĩnh vực truyền hình, chuỗi đặc trư ng sử dụng ứng dụng truvền hình có tương tá c [11] m khơng cần sử dụng thêm th iế t bị đạc biệt, tự động p h t th a y th ế đoạn quảng cáo [5] K hác b iệt so với công nghệ khác, chuỗi đặc trư ng hướng tới ứng dụng đ a phương tiện với mục tiêu n h ậ n dạng đối tượng m không cần đến thông tin siêu liệu nh m eta, w aterm ark
5 K ế t lu ận
Trong báo cáo đ ã trìn h bày m ột cách tổng quan khái niệm chuỗi đặc trư n g âm th a n h , phương p h áp xây dựng tìm kiếm, so sánh chuỗi đặc trư n g âm th a n h nghiên cứu p h t triển; đồng thời
(33)giới thiệu m ột số ứng dụng điển hình chuổi đặc trưng ảm t an ong xu hướng p hát triển m ạnh ứng dụng Internet sư dụng n ìeu oại liệu khác (n c h Internet applications) - đặc biệt dư liẹu đa phương tiện - chuỗi dặc trưng âm đối tượng nghiên cứu có tín h thơi sự, y ng na khoa học khả ứng dụng thực tiễn cao
Lời c ả m ởn Cơng trình tài trợ m ột phần từ đe tài nghicn cưu khoa học m ang m ã số QC.08.01, Đại học Quốc gia Hà Nội
Tài liệu th am khảo
Ịl] E Allamanche, J Herre o Hellmuth, B B ernhard Frobach, M C rem er,
AudioID: Towards Content-Based Identification o f Audio Material, 100th
AES Convention, Am sterdam , The N etherlands, 2001
r2] A Andoni and p Indyk, Near-optimal hashing algorithms fo r approximate
nearest neighbor in high dim ensions, in 47th A nnual IE E E Sym posium on
Foundations of C om puter Science ( F c s ’06), 2006, pp 459 468
r3] Baluja, Covell, Content fingerjirinting using wavelets, Proceedings of the 3rd European Conference on Visual M edia P roduction (C V M P), 2006 [4] S Bftluja, M Covell, Audio Fingerprinting: Combining C om puter Vision
& Data Stream Processing, Proceeding of the IEEE International Confer
ence on Acoustics Speech and Signal Processing (ICASSP), 2007
[5] M Covell, S Baluja, M Fink, Advertisem ent Replacem ent using Acoustic
and Visual Repetition, Proceedings of the IE E E W orkshop on M ultim edia
Signal Processing, 2006
[6] c Burges, J P la tt, s Jan a, D istortion D iscrim inant Analysis fo r A u
dio Fingerprinting, IEEE Transactions on P a tte rn Analysis and M achine
Intclligencve, 11 (3), 2UU3
[7] P Cano, E Batlle, T Kalker J H aitsm a, A remew o f algorithms fo r audio
fingerprinting, In W orkshop on M ultim edia Signal Processing, 2002.
* ^ Cheng, M usic Database Retrieval Based on Spectral Sim ilarity, In tern a tional Symposium on Music Inform ation R etrieval (ISM IR) 2001, Bloom ington, USA, O ctober 2001
'* M Covcll S Baluja, K now n-Audio D etection Using W aveprint: Spec-
tm qm m F ingrrpnnting B y Wavelet Hashing, Proceedings of th e IE E E
International Conference on Acoustics, Speech and Signal Processing MCASSPl 2007
(34)[10] A D uda, A N urnberger, and s Stober, Towards query by hu m
m ing/singing on audio databases, in Proceedings of th e 7th In ternational
Conference on Music Inform ation Retrieval, 2007
[11] M Fink, M Covell, s Baluja Social- and Interactive-Television Applica
tions Based on Real-Tim e A m bient-A udio Identification, Proceedings of
EuroIT V , 2006
[12] D Fragoulis D., G Rousopoulos, T Panagopoulos, c Alexiou, c Pa- paodysseus, On the Autom ated Recognition o f Seriously D istorted M usical
Recordings, IE E E Transactions on Signal Processing, 49 (4), pp 898-908, 2 0 1.
[13] A Gionis, p Indyk, R M otwani, Sim ilarity search in high dim ensions
via hashing, Proceedings of th e International Conference on Very Large
D atabases, 1999
[14] J Haitsma., T Kalker, J Oostveen, Robust Audio Hashing fo r C ontent
Identification, C ontent Based M ultim edia Indexing 2001, Brescia, Italy, 0 1.
[15] J H aitsm a, T Kalker, A Highly Robust Audio Fingerprinting System , Proceedings of the International Conference for Music Inform ation Re trieval, 2002
[16] c Jacobs, A Finkelstein, D Salesin, Fast M ultiresolution Image Q uery
ing, Proceedings of SIG G R A PH , 1995.
[17] J.-S R Jang and M.-Y Gao, A query-by-singing system based on dynam ic
programming, in Proceedings of th e International W orkshop on Intelligent
System s Resolutions, 2000
[18] J.-S R Jang, C.-L Hsu, and H.-R Lee, Continuous H M M and its en
hancem ent fo r singing/hum m ing query retrieval, in Proceedings of th e 6th
In ternational Conference on Music Inform ation Retrieval, 2005
[19] Y Ke, D Hoiem, R S ukthankar, Com puter Vision fo r M usic Identifica
tion, Proceedings of th e IE E E C om puter Society Conference on C om puter
Vision and P a tte rn Recognition (C V P R ), 2005
[20] Y Ke et al., C om puter vision fo r m usic identification: server code, h t t p : //w w w c s em u ed u / y k e / m u s i c r e t r i e v a l / m u s i c r e t r - t a r gz, 2005
[21] K Lem strom , String M atching Techniques fo r M usic Retrieval, Ph.D th e sis, U niversity of Helsinki, 2000
[22] c Meek and w B irm ingham , A pplications o f binary classification and
adaptive boosting to the query-by-hum m ing problem, in Proceedings of the
3rd In tern atio n al Conference on M usic Inform ation R etrieval, 2002
(35)[23] H Neuschmied H Mayer E B attle, Identification o f A udio Titles on the
Internet, Proceedings of the International Conference on Web Delivering
of Music 2001, Florence, Italy November 2001
[24] J Oostveen, T Kalker, J Haitsm a, Feature Extraction and a Database
Strategy fo r Video Fingerprinting, 5th International Conference on Visual
Information Systems, Taipei, Taiwan, M arch 2002 published in Recent aíỉ.ances in Visual Information Systems, LNCS 2314, Springer, Berlin, pp 117- 128
251 R Typke Music Retrieval based on Melodic Sim ilarity, Ph.D thesis, Uni- versiteit Utrecht, 2007
Ị26Ị P Viola, M Jones Robust Real-tim e O bject Detection Proceedings of the International Conference for C om puter Vision, 2001
[27] X Wu, M Li J Yang, and Y Yan, A top-down approach to melody
match in pitch countour fo r query by hum m ing, in Proceedings of the
International Conference of Chinese Spoken Language Processing, 2006 [28] Auditude website h t t p : //www a u d i t u d e com
ID3Man website h t t p : //w vw id3m an com !30! Rclatable website h ttp ://w w w r e la ta b le c o m [31] Napster wohsitp h ttp ://w w w n a p s te r.c o m
32] Website All Media Guide h ttp ://w w w a llm e d ia g u id e c o m /la s s o / '33 h t t p :/ / b u s i n e s s mufi n c o m /e n /p r o d u c ts /
m u fin - a u d io id - m u s ic - r e c o g n itio n - a n d - m u s ic - m o n ito r in g / ■34Ị Website G racenote h t t p : //w vw g r a c e n o t e com/
[35] Website Last.fm h t t p : // w w w l a s t f m /
[36] Website Music Brainz h t t p : / / m u s i c b r a i n z o r g / 37] Website Shazam h t t p : //www shazam com/
[38 Website Tunatic h t : // w w w w i l d b i t s c o m / t u n a t i c / 39] Moodlogic website h t t p : //www m o o d lo g ic
40 Ydcast website h ttp ://w w w y a c a s t.c o m
(36)ĐẠI HỌC QUỐC GIA HÀ NỘI TRỪỜNG ĐẠI HỌC CÔNG NGHỆ
Bùi Thanh Xuân
CHUỖI ĐẶC TRƯNG ÂM THANH VÀ ỨNG DỤNG TRONG TÌM KIẾM NHẠC SỐ
KHÓA LUẬN TÓT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin
Cán hưóiig dẫn: TS Nguyễn Hải Châu
(37)TÓ M T Ắ T N Ộ I D U N G
(38)EQ
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Vũ Thị
Tu-TÌM KIẾM D LIỆU ÂM THANH BẰNG PHƯƠNG PHÁP QbH VÀ ỨNG DỤNG
KHĨA LUẬN TĨT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin
Cán hưóng dẫn: TS Nguyễn Hải Châu
(39)Tóm tắt
Trong luận văn chúng tơi xin trình bày hiểu biêt cùa vê nhừi vấn đề sau đây:
• Rút trích đặc trưng giai điệu từ đoạn thu âm người dùng • Biểu điền đặc trưng giai điệu phù hợp cho q trình tìm kiểm
• Phương pháp tìm kiếm hay truy vấn giai điệu mong muốn s dữ liệu đặc trưng chọn
Âm truy vấn thu âm từ người sử dụng rút trích đường biể diễn cao độ (pitch sequence) hay gọi tần sổ f ữ Chuổi cao độ đư<; dùng đê tính đặc trưng đường biên giai điệu đặc trưng dùng qi trình tìm kiếm với phương pháp Dynamic Time Warping (DTW)
Khóa luận tốt nghiệp thực khuôn khổ đề tài nghiên cú mang mã sổ QC.08.0I, Đại học Quốc gia Hà Nội.
(40)IỘ N G HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯƠNG ĐẠI HỌC CÔNG NGHỆ Đ ộ c lập - T ự d o - H n h p h ú c
Đ Ề C Ư Ơ N G
, * ĐẺ TÀI KHOA HỌC CÔNG NGHỆ
C A P ĐẠI H Ọ C Q U Ố C GIA HÀ N Ộ I/C Ả P T R Ư Ờ N G ĐẠI H Ọ C C Ô N G N G H Ệ N Ă M 2008 (Do T r ò n g Đ H C N quản lý)
à c c £ CA
1 Tên đề tài:
Tiêng Việt: Chuỗi đặc trung ứng dụng tìm kiếm liệu đa phirong tiện
r
Tiêng Anh: Acoustic fingerprint and its application in searching multimedia content
2 Thcri gi an t h ự c h iệ n: 12 t h n2 (từ t h n s 6.2008 đến t h n s 6/2008)
3 Đ ê tài thuộc lĩnh v ự c ưu tiên: Cơne nehệ thơna tin 4 Tính độc đáo (origin ality) cùa đề tài:
5 T h ô n g tin chủ nhiệm đề tài:
- H ọ tên: N g u yền H ài Châu N am , - N ữ □ - N ă m sinh: ỉ 970
- N gành, c h u yê n ngàn h đào tạo: C ông nghệ thong tin
- H ọc hàm, h ọ c vị: Tiến s ĩ
- C hức danh: Chủ nhiệm m ôn
- Đ ơn vị c ô n g tác (Khoa, Trung tâm ): K hoa C ông nghệ thông tin - Đ ịa c h ỉ liên hệ: P hò n g 304, nhà E3, trường Đ ại học C ông nghệ
Sổ Fax: 04-~54~460
Sổ điện thoại: Cơ quan: 04-~!5 4~ 8ỉ3; Nhà riêng: 04-5535269; Di động: 0903405040 - Tóm tăt h o t đ ộ n g nghiên cửu chủ nhiệm đê tài:
Thòi, gian Tên đê tài c n a trình T cách tham 2Ìa Câp quản lý/Nơi cơng bơ
9/2005-9/2006
Tí nh tốn hiệu n ă n s cao ứ ng d ụ n g vào tốn m ng độ ng lực p h ân tử ( Q C )
C hủ trì đề tài T r ờn g Đại học Công nghệ, Đ H Q G H N
9/2004-9/2006
N a h i ê n c ứu mơ hình thử n e h i ệ m xâv d ự n s hệ t h ố n g dịch vụ điện tử p h ục vụ học tập nghi ên c ửu sinh viên
T h àn h viên T r n s Đại học C ô n a nghệ, D H Q G H N
2006-2008
N g h i ê n cứu, phát triên hệ t h ố n e lọc nội d ung hồ trợ q u n lý đảm bào an tồn - an ninh t hơ n g tin m n g Internet
(41)6 Cơ quan phối họp cộng tác vien chinh cua đe tai
• Các quan phối hợp
J J Ị Tên địa chi q ua n phối hợp
*
1 I ' Khoa CNTT trường Đại học C ô n g nghệ
• Các cộng tác viên
TT I lọ tên Học vị C huyên n e n h đào tạo
C quan c ô n s tác
1 Nguyền N c ọ c Hóa TS C N T T K ho a C N T T , ĐHCN
2 Nguvễn Hà Nam TS C N T T K h o a C N T T , ĐHCN
3 Dư Phươna Hạnh ThS C N T T Kh o a C N T T ĐHCN
3 Neuycn Thị Thì n Linh CN C N T T Kho a C N TT , ĐHCN
4 Phạm Q u a n e Nhật CN C N T T JAIST, Nhậ t Bàn Minh
Phạm Câm N ẹọ c CN C N T T K ho a C N T T , ĐHCN
7 -Mục tiêu dề tài:
• N t hi ên cứu vè tìm kiém âm dựa chuỗi dặc trưng
• Xây dựng ứng d ụn e thử nghiệm tìm kiếm bàn nhạc C S D L nhạc số dt chuối đặc t rưn2
8 T ó m tắt nội d u n g nghitMi CIIU c ủ a đề tài:
• Trong khn khổ dê tài c h ú n s n s h i ên cứu vấn đề sau: • Nghiên cứu chuỗi dặc trưng âm (acoustic fingerprint)
• Cúc ihuật tốn xác định aooustic fingerprint có ưu nhưực điểm cua chúna • Xây dựng ứng d ụng thử nghiệm tìm kiếm âm nhạc Irong C S D L nhạc số dựa trê
chuỗi dặc trưng âm thar.n
9 Các chuvên đề nghiên cúu dụ kiến đề tài
Nội Ju n g C h u yên đê
V 11liu bun - c huói đặc trưng âm thuật toán xác định
So sánh thuật toán xác dịnh chuỗi âm khác v dựng ửng d ụng thư nghiệm tìm kiém âm nhac tronc c
nhạc -ÍƠ dựa chuỗi dặc t rư n ẹ âm
(42)của đề tài (chi tiết hoá chương mục): Phần mỏ’ đầu:
Giới thiệu m ụ c tiêu, nội dung nghiên cứu đề tài, sơ lược trình thực đề tài kết q u ả
P hần 1: Tổng quan
- N g hi ê n cứu t qua n chuỗi đặc trưne âm
- K n ă n g ứn g dụn g thực tiễn chuỗi đặc trưng âm trona dịch vụ nội d un g số
Pliân 2: Các th u ậ t tốn tìm kiếm âm dựa ch u ỗ i đặc tn rn g
Các thuật toán xâ y d ự n g chuỗi đặc trưne âm thanh, so sánh thuật tốn
P hần 3: n g d ụ n g
- X ây d ự n g thử n g hi ệ m hệ th ố ns C SDL nhạc sổ (hoặc sử d ụ n s hệ thốne C S D L sẵn có) n h m ph ục vụ cho tìm kiếm âm
- Xâ y d ự n g ứn g d ụn g thử nghiệm tìm kiếm nhạc theo chuỗi đặc t r n s âm
Phần 4: Đ ánh giá kết luận
Đánh giá kết c đề tài, kết luận h ướ ng n s h i ên cứu
11 Tính đa ngành liên ngành đề tài:
- Đê tài nà y bao hà m nhiêu chuyên n e àn h khác trone CNTT Các c h u \ è n n g nh c hí nh đ ượ c liệt kê đây:
C sở d ữ liệu đ a p h n g tiện X lý tín hiệu số
- T í nh đa/liên n gà nh thể qua việc tích hợp tri thức chù yếu từ hai c hu yê n n g n h để giải vấn đề đặt t r o ne đề tài
- Đ e tài đ ượ c thực định h n e nghiên cứu c C SD L đa p hương tiện m ô n C H T T T , khoa CNTT
12 P h u o n g pháp luận p h u o n g pháp khoa học sử dụ ng đề tài:
- Thu thập n g h iê n c u nội dung khoa học t nhiều ng uồ n khác sách, báo c hu yên n e ành, Internet lĩnh vực tìm kiếm â m theo chuỗi đặc trưna - Kết h ợp nghiê n c ứ u c ô n e nghệ, lý thuyết phát triển ứng dụne
- Tổ c hức semi nar, t h a m eia hội nghị, hội thảo liên quan đến lĩnh vực tim kiếm âm nhạc
13 T n g thiết bị, p h o n g tiện nghiên cứu đ u ọ c sử dụng:
Các thiết bị có mơ n C H T T T K h o a CN TT: - M y tính cá nh ân
- M y tính s erver
(43)15 Các hoạt động nghiên cứu cùa đê tài
Nehiên cứu tài liệu Điểu tra khảo sát □ Biên soạn tài liệu Thiết kế xây dựng thí nghiệm □ Thực thí nghiệm, đo đạc □ Tổ chức, tham cia hội thào khoa học
Tập huấn □
Viết báo cáo khoa học Thiết kế chế tạo sàn phẩm, thiết bị □ Chạy thử kiểm nghiệm Hoàn thiện san phàm, thiết bị □
Hoạt động khác □
16 Kết quà dự kiến
16.1 Kẻt <111(1 khoa hục
- Một báo cáo tone hợp kết quà nghiên cứu cùa đê tài
- Một báo cáo/bài báo hội nghị hội thào khoa học liên quan đến tìm kiếm CS1 multimedia
16.2 Kết quà triển kliai íntg (lụng
- Phàn mềm thư nehiệm tìm kiém bàn nhạc theo giai điệu 16.3 hết quà đảo tạo
- Hai khóa luận tốt nghiệp Đại học ngành C N T T
ì 6.4 Két (JIM tàng cường tiềm lực cho đon vị
- Kết qua bồi dư ỡ nẹ nâng cao trình dộ cán bộ: Ket quà c ùa đê tài chù yêu phục vụ mục đích t ă n s cirờna n ă n s nehiên cứu khoa học sinh viên, họ viên cao học NCS cán mơn C H T T T
- Đóne 2Ĩp cho việc tăng cường trane thiết bị: K h ô n e
17 Tổng kinh phí đề nghị:
25.000.000 đ (H m i lăm triệu đồng)
18 Nội dung tiến độ thục đề tài (D anh mục nội d u n g nghiên cứu <( đuọc tricn khai, thòi gian thực sản phẩm t u o n g ứng d ự kiến đạt đưọi TT Nội dun” hoạt động nghiên cứu Thòi gian thụx hiện S ả n pliẩm k
Từ tháng Đỗn thány ĩ h u thập thông tin, tài liệu viết
tịriii quan vê ốc van đẻ nghiên cứu 6,2008 6/2009 B áo cáo tônj Xày dựng dè c ương nghiên cứu chi tiết
(44)-fingerprint - 7/2008 8/2008
Báo cáo chuyên đề N a h i ê n c ứu p h n g phá p x ây d ự n e
CSDI^ âm nhạc 8/2008 10/2008 D e ' x ua t p h n g p h p xây dựn g ứng
d ụ n e tìm k iế m â m nhạc theo đặc t rưng âm
8/2008 10/2008
3 Hội thảo kỳ 11/2008 11/2008
4
Viểt báo cáo c h u y ên đề: - C hu yên đề C S D L multimedia - C hu yê n đề acoustic fingerprint
11/2008 2/ 2009 Báo cáo chuyên đề
5 Xâ y d ự n e ứ n e d ụ n e thử nghiệm 12/2008 4/ 2009 Phàn mềm thử nghiệm
Đá nh aiá kết 2/2009 4/ 2009 Báo cáo đánh 2Ĩá
6 Viết báo cáo t ổ n e hợp 4/2009 5/2009 Báo cáo tôna kết đề tài
Hội thảo lần cuối 5/20.09 5/2009
Hoà n thiện báo cáo 5/2009 5/2009 Báo cáo tông kết đê tài hoàn thiện
7 N ộ p sản p h ẩ m 6/2009 6/2009 Bài báo báo cáo, phần mềm
8 N g h i ệm thu đề tài 6/2009 6/2009 Két quà nghiệm thu
19 Phân bổ kinh phí
T T Nội d u n g K i n h p h í ( V N Đ ) Xâv dựn g đề c n e nghiên cứu chi tiết 1.000.000 Thu thập tài liệu v viết tổng quan đề tài
Th u thập tài liệu (mua thuê) Dịch tài liệu tha m khả o (số trang X giá)
1
Viết t ổ n s qua n
3 Đi ều tra, k h ảo sát, thí nghiệm, thu thập sơ liệu nghiên cứu . - - -— 19.000.000 Chí phí tàu xe, c n e tác phí cho hoạt đ ộ n g nghiên c ứu (113)
Chi phí th ng tin liên lạc (111)
0
Chi phí thuê m n (th nhân cơng, th c hun gia naồi n c ) (114)
19.000.000
-—
Chi phí hoạt đ ộ n g c hu yê n môn: chi tô chức semi nar, chi quàn lý cua c hủ nh iệ m đẽ tài v v ( l 19-99)
(45)4 Thuê, mua săm trane thiêt bị, neuyên vât liệu, linh kiẹn u
Thuê trane thiết bị (119) D
Mua trane thiết bị (145) ũ
Muă vật liệu, linh kiện nhỏ (119-01) Viẽt báo cáo khoa học, n shi ệm thu 3.500.000
Viết báo, báo cáo đề tài 2.000.000 Mội thào (phí tham d ự hội thào, hội nahị, kinh phí lại,
cơng tác phí tham d ự hội thào, hội ns hị) (113 119-06)
0
Nghiệm thu (119-99) 1.5 00.000
6 Chi khác
- i 250.000
Mua văn phòng phẩm ( 19-0fi) 50.000 ln ấn, chụp tài liệu (119-06) 2 00.000
Ọuán K phí (119-99) 1.250.000
7 Tơnự kinh p h í 25.000.000
I ơng k i nh phí: 25.000.000 đ (Hai mư i lăm tri ệu đ n g )
Ng ày t h n s năm 2007 C h u nh iệ m dê tài Tl ni t r ỏ n g đo'11 vị
■ ' X.
Nguyen H i Châu Trịnh Nhcật Tiến
Ngà> tháne * - nãm 200 Ý
Phê d u \ ệ t cua T r ự n Đ H C N
T L HIỆU TRƯƠNG
t r n g p h ò n g
(46)T D ^ 1’ QUỐC GIA HÀ NỘI CỘNG HÒA XẢ HỘI CHỦ NGHĨA VIỆT NAM
'ƯƠNG ĐẠI HỌC CÔNG NGHỆ Đ ộc lập - T ự - H ạnh phúc
~ = = = = o o = = = " = = = = o o = = = ồõ: ■'••6 /2008/HĐ-KHCN
Hà Nội, ngàvZ& tháng năm 2008
HỢP Đò n g t h ự c h i ệ n đ è t i NGHIÊN c u KHOA HỌC
CÁP Đ Ạ I H Ọ C QƯÓC G IA HÀ N Ộ I NĂ M 2008
Can CU' ve Qui định vé Tố chức Hoạt động cùa Đ i học Quốc gia Hà N ộ i ban hành theo Ouyẻt định so 600/TCC B ngày 0Ỉ tháng 10 năm 2001 cùa Đ ại học Quốc gia Hà N ội qui đình quyên hạn cưa ìuẹii truơng trường đại học thành viên;
Căn thông báo số 1880/TB-KHCN ngày 29 tháng năm 2008 cua Giám đốc Đại học ộ u ố c gia Ha A ọ / ve viẹc giao nhiệm vụ chi tiêu kế hoạch Khoa học & C ông nghệ năm 2008:
- Căn để cương nghiên cứu cua đẻ lài phê duyệt,
Chúng gồm:
Bên giao nhiệm vụ (gọi bên A): Trư òng Đại học Công nghệ - ĐHQG Hà Nội Đại diện là: PGS TS Nguyễn Ngọc Bình
Chức vụ: Phó Hiệu trường
Bên nhận nhiệm vụ (gọi bên B)
Ông: TS Nguyễn Hải Châu
Đơn vị công tác: Khoa Công nghệ Thông tin - Trường Đại học Công nghệ
Ký hợp đồng thực đề tài nghiên cứu khoa học đặc biệt cấp Đại học Quốc gia Hà Nội“
Tên đê tài: “ C h u ô i đ ặ c trư n g ứng dụn g tìm kiếm d ữ liệu đa phuoTig tiện",
Mã sổ: Q C 08.01,
Với điều khoan thỏa thuận sau:
Diều ĩ: Bên B chịu trách nhiệm tổ chức triển khai thực nội dung nghiên'đứ?i đề
ài theo đ ú n g tiế n độ th ự c h iện đăng ký đê cư ng n g h iên cứu đư ợ c phê duyệt • '
Diêu 2: Bên B báo cáo kêt thực đê tài giao nộp sản phâm đê tài chơ bên \ theo qui định hành Đại học Quốc gia Hà Nội Trường Đại học rông nahệ trước ngày 10/06/2009, bao gồm: * ■
01 Phần mềm thử nghiệm tìm kiếm bàn nhạc theo giai điệu
01 báo báo cáo hội nghị/hội tháo khoa học liên quan đên tìm kiêm sờ liệu multimedia
02 khóa luận tốt nghiệp
(47)pháp nội dung nehiên cứu kết quà đạt được, đánh giá ý nghía va tạc đọng khoa
học công n eh ệ kết quà đạt việc thực hiẹn đ e tai)
Diều 3; T ổ n e kinh phí cù a để tài phê ệt là: 0 0 0 đông
(Bang chữ: H m ươi lăm triệu đống chẵn ì
Chi phí cụ thể trone d ự tốn dự trù kinh phí
Diều 4: Bẽn B có trách nhiệm sử d ụ n e kinh phí cấp theo đú n g m ục đ ích, chẻ độ tài chinh hành, quvết tốn với phịne Tài vụ - Kế tốn thực việc nghiệm thu đê tài theo qui định cùa Đại học Q uốc aia Hà N ội
Diều 5: Bên A giữ quyền sở hữu trí tuệ kết quà khoa học cùa đê tài Tât các
công bố liên quan đến nội d une khoa học cúa đề tải phải ghi rõ nguồn tài trợ kinh phí nghiên cửu theo m ã so đề tài sau:
Đồi với báo báo cáo khoa học: ‘‘C ông trình đư ợ c tài trợ m ột phân từ đê tài m ang m ã số: Q C 08.01 Đại học Quốc aia H N ộ i”
Dối với luận vãn (khóa lu ậ n ): “ Luận văn (khóa lu ậ n ) đượ c thực khuôn khổ dề tài m ang m ã số: Q C 08.01, Đại học Q uốc gia Hà Nội
Đôi với báo báo cáo đăng tạp chí, kỷ yếu hội nuhị quốc tế (tiếng Anil): "This w ork is (partly) supported bv the research p roject N o Q C 08.01 granted by Vietnam N ational U niversity, H anoi”
Oicu 6: Hai bên cam kết thực d u n s điều khoan ghi hợp đồng Trorm q trình thực h(Tp đồng, hai bên có trách nhiệm thông báo kịp th ài cho n h ữ n s vấn đề vướng măc tù n g bàn bạc tích cực tìm biện pháp giai H ợp đ n g tự đ ộ n ẹ
thanh lý sau có biên hàn họp hội đông khoa học danh giá nghiệm thu dề tài với kết
dáp ứng qui dịnh hành
llig u h Htfp dồng làm thành 05 b n bên giữ 01 ban, 02 hàn gửi cho p h ò n g T V -K T 01 ban lưu phòng T C -H C
DẠI DIỆN BÊN lì
> I r / ' Á
(48)►
SUMMARY
P ro ject title: Acoustic fingerprint and its application in searching m ultim edia content
Code num ber: QC.08.01
C oordinator: Dr Nguyen Hai Chau
Im plem enting institution: University of Technology, V ietnam N ational University, Hanoi
C ooperating institution:
D uration: year, from Ju n 2008 to Ju n 2009
1 O b je c tiv e s : This p ro je c t’s aim is to investigate m ethods for searching audio con te n t based on acoustic fingerprint and to build a p rototype system for searching audio from acoustic queries
2 M a in c o n te n ts: We investigated audio searching m ethods and following m a chine learning approach to e x tra ct audio features From th e featutes we calculate sim ilarity of audio snippets thus we are able to search and choose th e m ost ap p ro p ria te audio segm ent to a given audio query We build a p ro to ty p e system , co n stru ct tra in in g d a ta and obtained high accuracy in searching audio content (over 95%)
3 R e s u l ts o b t a i n e d :
- R esults in science and technology: Investigation of concepts, m ethods for generating, searching and m easuring sim ilarity of audio fingerprints; build ing a te s t audio d atab ase, train in g our system for audio feature extraction, ru n audio retrieval te s t and obtained high accuracy (over 95%)
- R esults in practical application: Successfully im plem ented a pro to ty p e ap plication to recognize audio content from m icrophone in p u t signal or from sam ple audio sn ip p ets whose lengths are less th a n or equal to 30 seconds - R esults in training: 02 B.Sc theses com pleted in Ju n 02, 2009, 01 M.Sc
thesis is under supervision
- Publications: 01 article to be subm ited to VNU Jo u rn al of Science 01 tech nical report
(49)PH IẾ U Đ Ă N G K Ý ^
KẾT QUẢ N G H IÊ N c ứ u CÁC Đ Ề t i K H C N
T ên đ ề tà i:
Chuỗi đặc trưng ứng dụng tìm kiếm liệu đa phường tiện
(Acoustic fingerprint and its application ill searching multimedia contcnt)
M ã số: QC.08.01.
Cơ quan quản lý đề tài: Dại học Quốc gia Hà Nội
Địa chỉ: 144 Xuân Thủy, cầu Giấy, Hà Nội. Diện thoại: 04-37548664
Cơ quan chủ trì đề tài: Trường Đại học Cơng nghệ, Dại học Quốc gia Hà Nội
Địa chỉ: 144 Xuân Thủy, cầu Giấy, Hà Nội. Điện thoại: 04-37547813
Tống chi p h í th ự c chi: 25.000.000 đồng
Trong đó: - Từ ngân sách nhà nước: 25.000.000 đồng - Nguồn khác: đồng.
Thời gian nghiên cứu: 12 tháng
Thời gian bắt đầu: 6/2008 Thời gian kết thúc: 6/2009
T ên c n phối hợp n g h iên cứu: Chủ trì đề tài: TS Nguyễn Hải Châu
Cơ quan: Bộ môn hệ thống thông tin, khoa Công nghệ thông tin, trường Dại học Công nghệ, Dại học Quốc gia Hà Nội
Diện thoại: 04-37547813 Những người tham gia:
STT H ọ tên H ọc h m
học vị
Cơ q u a n công tá c
1 Nguyễn Ngọc Hóa TS Khoa Cơng nghệ thơng tin, trường Dại học Công nghệ, ĐHQGHISL
2 Dỗ Thị Minh Việt ThS Centre of Excellence, Norwe gian University of Science andc Technology (NTNƯ), Norway Phạm Cẩm Ngọc CN Khoa Công nghệ thông tin,
trường Đại học Công nghệ, ĐHQGHNÌ
4 Nguyễn Thị Thùy Linh CN Khoa Công nghệ thông tin trường Dại học Công nghệ,
đ h q g h n'
(50)o - T
-Ket qua phục vụ thực tế: Dã hồn thành chương trình thử nghiệm tìm kiếm am dựa trẽn chuỗi đặc trưng với độ xác cao Bộ chương trình có the tiêp tục phát triển để hoạt động môi trường web
• Kết đào tạo:
— Đã hướng dẫn tốt nghiệp 02 sinh viên bảo vệ tháng 6/2009 đề tài tính tốn chi đặc trưng âm tìm kiếm liệu đa phương tiện — Đang hướng dẫn 01 học viên cao học (là thành viên thực đề
tài) thực đề tài nghiên cứu liên quan đến chuỗi đặc trưng âm thanli tìm kiếm nhạc sở liệu đa phương tiện
• Kết nâng cao tiềm lực khoa học: Nghiên cứu thuật toán, phương pháp ứng dụng chuỗi đặc trưng, hướng dẫn sinh viên thực tập sinh khoa Công nghệ Thông tin trường Đại học Công nghệ vấn đề liên quan đến chuỗi đặc trưng tìm kiếm liệu đa phương tiện
đê liên quan đến chuỗi đặc trưng tìm kiếm liệu đa phương tiện K iế n n g h ị q u i m ô đối tư ợ n g p d ụ n g k ế t q u ả n g h iê n cứu:
Các kết đề tài gồm báo cáo, báo, chương trình ứng dụng chia sẻ cho người quan tâm đến hướng nghiên cứu đề tài
Chức vụ Chủ nhiệm đề tài Thủ trưởng Chủ tịch Hội Thủ trưởng Thủ trưởng quan chù trì đề
tài
Thủ trưởng
qu11íGIẢMđẺ)ỔC
Chủ tịch Hội đồng đánh giá
nghiệm KH0A HỌ(Ị CƠNG NGHỆ
!Ĩ TRƯỞNG BAN
/ / f Ạ ! V 2
S / C N V /■■■''.'I& ísiiỉ
, r - ^ _ „ < ' v/ _\
PGS.T3: J )ỉỷu ýịl %Áế $ ìsẨ
h t t p : / / w w f f m p e g o r g http://WWW h t t p : //www c s emu e d u / h t ://w w w a llm e d ia g u id e c o m /la s s o / h t t p : / / b u s i n e s s m u fin c o m /e n /p r o d u c ts / h t t p : / / m u s i c b r a i n z o r g / h t t p : / / w w w w i l d b i t s c o m / t u n a t i c / www.shazam.com/ www.musinedia.nrp, h ttp ://w w w r e la ta b le c o m h ttp ://w w w n a p s te r.c o m h t t p : // w w w l a s t f m / h ttp ://w w w y a c a s t.c o m