Phùng Thị Thu Hiền cs Tạp chí KHOA HỌC & CƠNG NGHỆ 61(12/2): 55 - 59 TÌM KIẾM ÂM NHẠC THEO NỘI DUNG SỬ DỤNG ĐẶC TRƢNG TẦN SỐ CƠ BẢN F0 VÀ GIẢI THUẬT THỜI GIAN ĐỘNG DTW Phùng Thị Thu Hiền1*, Thái Quang Vinh2, Phùng Trung Nghĩa3 ,Lê Tuấn Anh4 Đại học Kỹ thuật Công nghiệp Thái Nguyên, 2Viện Công nghệ thông tin, Viện KHCN Việt nam, Japan Advanced Institute of Science and Technology, 4Khoa Cơng nghệ thơng tin, Đại học Thái Ngun TĨM TẮT Việc tìm kiếm hát sở liệu vấn đề hấp dẫn đƣợc số nhà nghiên cứu quan tâm thời gian gần Tìm kiếm âm nhạc sở liệu thƣờng dựa sở tìm kiếm mục Tuy nhiên, việc tìm kiếm âm nhạc theo mục có nhiều nhƣợc điểm.Với từ khố sử dụng tìm kiếm kết trả truy vấn dựa text xâu liệu Mặt khác, đơi ngƣời dùng qn tên nhớ khơng xác tên hát, lời hát, tác giả hát Với hát, hát tƣơng tự nhƣng ca sĩ khác hát kết tìm kiếm khác Tìm kiếm hát theo nội dung khắc phục đƣợc nhƣợc điểm Trong sở liệu đa phƣơng tiện lớn vấn đề tìm kiếm âm nhạc theo nội dung trở nên quan trọng Bài báo trình bày phƣơng pháp tìm kiếm âm nhạc theo nội dung dùng đặc trƣng dùng tần số F0 giải thuật thời gian động DTW Từ khóa: Giải thuật thời gian động, Cao độ Pitch ĐẶT VẤN ĐỀ Tìm kiếm âm nhạc theo nội dung lĩnh vực nghiên cứu đƣợc nhiều nhà nghiên cứu quan tâm Hiện có số phƣơng thức đƣợc áp dụng tìm kiếm âm nhạc theo nội dung Một số nhà nghiên cứu nhƣ S.Blackburn, D.DeRoure [4] sử dụng kỹ thuật ƣớc lƣợng cao độ Pitch để xác định giai điệu đoạn nhạc sử dụng Pitch làm tham số đặc trƣng cho hệ thống tìm kiếm âm nhạc theo nội dung Tƣơng tự, Mc Nab cộng [5] sử dụng phƣơng thức tính tốn giai điệu cách ƣớc tần số F0 để so sánh phiên âm hát Ghias cộng [6] giới thiệu phƣơng pháp so khớp độ tƣơng tự sử dụng để đƣa kết truy vấn sở liệu âm nhạc Tuy nhiên, theo kết nghiên cứu Beth Logan [8] phƣơng pháp tìm kiếm âm nhạc theo nội dung chƣa đảm bảo đƣợc độ xác thời gian tính tốn, đặc biệt tìm kiếm giai điệu nhạc hoàn chỉnh hệ sở liệu lớn Bài báo trình bày phƣơng pháp dùng tham số tần số F0 để trích chọn đặc trƣng âm thanh, sau dùng giải thuật thời gian động DTW (Dynamic Time Wraping) để phân lớp liệu đƣa kết thực nghiệm CƠ SỞ LÝ THUYẾT Trích chọn đặc trƣng âm sử dụng tần số F0 (Pitch) Cao độ (Pitch) thuộc tính tiếng nói âm nói chung Chu kỳ Pitch đại lƣợng đƣợc xác định miền thời gian tỉ lệ nghịch với tần số F0 đại lƣợng xác định miền tần số Có nhiều thuật tốn phƣơng pháp ƣớc lƣợng Pitch Các thuật toán ƣớc lƣợng Pitch cố gắng để định vị trực tiếp chu kỳ Pitch miền thời gian thông qua ƣớc lƣợng tần số F0 miền tần số tín hiệu âm Phƣơng pháp ƣớc lƣợng Pitch phổ biến sử dụng hàm tự tƣơng quan ACF (AutoCorrelation Function) Ý nghĩa tƣơng quan hai tín hiệu đo độ tƣơng tự chúng tự tƣơng quan đo độ tƣơng tự tín hiệu biến đổi theo thời gian Hàm tự tƣơng quan khoảng thời gian hữu hạn, tín hiệu rời rạc theo thời gian s(n) đƣợc biểu diễn là: r (k ) N 1 k s ( m) s ( m k ) (1) m 0 k độ trễ N độ dài đoạn, s(m) = miền Tel: 0986060545, Email: pthientng@gmail.com Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 55 http://www.Lrc-tnu.edu.vn Phùng Thị Thu Hiền cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 55 - 59 Khoảng cách D(X,Y) liệu đầu vào liệu mẫu Y=y1….ys có độ dài thời gian khác S T đƣợc xác định tổng khoảng cách cục d ij d ( xi , y j ) đƣờng trình biến dạng thời gian Khoảng cách tích luỹ Dij D( x1 xi , y1 y j ) đƣợc xác định theo công thức (3) 0 minDi 1, j 1 , Di 1, j , Di , j 1 d ij I=J=0 I>0, J>0 Kh¸c Và khoảng cách tổng D(X,Y)=DTS Hình Dạng sóng tự tƣơng quan miền thời gian Hình thể đoạn âm ngắn tính tự tƣơng quan đoạn Chu kỳ cao độ đƣợc theo dõi khoảng 80 mẫu Đỉnh nhơ lên sóng tự tƣơng quan biểu thị điều Giá trị cực xuất trình tự tƣơng quan mức trễ Một giá trị cực đại khác mức trễ 162, cho thấy kết hợp tốt dịch chuyển hai lần chu kỳ cao độ Vì vậy, để ƣớc lƣợng cao độ Pitch, cửa sổ âm nên chứa hai chu kỳ cao độ (N >2/F0) Giả sử cho hai chuỗi vec tơ tƣơng ứng với mẫu tín hiệu a a1 , a , a3 , a I b b , b2 , b3 , bJ Cho tín hiệu mẫu a có chiều dài lớn mẫu b tức giá trị (I > J) Thuật toán thực việc tìm đƣờng tối ƣu chuỗi b theo chuỗi a (tức vị trí khác hai chuỗi theo thời gian) cho tổng chênh lệch hai chuỗi vec tơ nhỏ Để thực đƣợc điều ta dùng thuật toán dùng ma trận lƣới điểm H2 Kỹ thuật phân lớp dùng thời gian động DTW (Dynamic Time Warping) Cho chuỗi đầu vào w w1 , w2 , wL có độ dài L có chuỗi vector đặc tính X x1 , x2 , xT , nhiệm vụ hệ thống phải nhận dạng chuỗi âm đầu vào trình xử lý cần phải giảm thiểu tối đa sai số định Mỗi tín hiệu đầu vào Wl đƣợc so sánh với mẫu Yl Mỗi Yl chuỗi vector đặc tính tín hiệu Wl Nhằm tăng khả nhận dạng, tín hiệu có tập hợp mẫu khác nhau: Yl ,1 , , Yl ,M l l * arg min D( X , Yl ,m ) l m (2 ) Nhƣ Wl* phù hợp với mẫu Yl tìm đƣợc Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 56 Hình Ma trận lƣới điểm Hai chuỗi véc tơ tƣơng ứng với hai cạnh ma trận Giả sử, véc tơ a theo trục x véc tơ b theo trục y Các nút ma trận tƣơng ứng với khoảng cách tính đƣợc hai chuỗi véc tơ thời điểm thứ i véc tơ a tƣơng ứng thời điểm thứ j véc tơ b tƣơng ứng nút (i,j) Nhƣ vậy, đƣờng tối ƣu ma trận có dạng nhƣ hình http://www.Lrc-tnu.edu.vn Phùng Thị Thu Hiền cs Tạp chí KHOA HỌC & CƠNG NGHỆ 61(12/2): 55 - 59 tăng khối lƣợng tính tốn (nếu xét tồn ma trận điểm) Vì vậy, cần phải giới hạn phạm vi đƣờng cho việc tính tốn giảm độ xác cao Phạm vi cho đƣờng đƣợc chọn nhƣ hình vẽ 4: Hình Hình dạng đƣờng ma trận Việc xác định đƣờng tối ƣu ma trận lƣới đƣợc thực tổng khoảng cách sai lệch cặp véc tơ hai chuỗi nhỏ Ký hiệu, d(i,j) độ chênh lệch hai véc tơ a b thời điểm i j tƣơng ứng Yêu cầu thuật toán DTW cho hai chuỗi vec tơ bắt đầu vị trí (0,0) kết thúc vị trí (I,J) Giá trị nút (0,0) xác định Hình Phạm vi cho đƣờng Luật đƣờng đƣợc lựa chọn theo nhƣ hình Đƣờng đƣợc xác định theo cặp nút liên tiếp (ik-1,jk-1) (ik,jk) Dùng ký hiệu ik để biểu diễn số véc tơ a thời điểm k jk số véc tơ b thời điểm k Nhƣ tổng khoảng cách hai chuỗi véc tơ : D(ik , j k ) D(ik 1 , j k 1 ) d (ik , j k ) (4) Việc tìm giá trị D(i,j) theo cơng thức sau: D* (ik , jk ) minD(ik 1 , jk 1 ) d (ik , jk ) mk d (im , j m ) m0 (5) Một số bắt buộc DTW: - Chỉ số i phải tăng tức : ik - ik-1 =1 - Chỉ số j tăng theo i với điều kiện: jk -jk-1 Giới hạn đƣờng tuỳ ý đƣợc nhƣ gây kết sai lệch làm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 57 Hình Luật đƣờng Giả sử vị trí thời điểm i k-1 điểm tiếp ik Nhƣ giá trị jk jk, jk+1, jk+2 tƣơng ứng với mũi tên ma trận KẾT QUẢ THỰC NGHIỆM Chuẩn bị liệu Dữ liệu bao gồm 20 hát thiếu nhi tiếng giới đƣợc download từ http://140.114.76.148/jang2/dataSet/childSon g4public/QBSH-corpus/ Trong cấu trúc file âm MIDI định dạng file đơn giản, kích cỡ nhỏ gọn nhƣng biểu diễn đƣợc giai điệu âm nhạc Do đó, bƣớc huấn luyện, chƣơng trình sử dụng 20 nhạc định dạng MIDI PCM Wave chuẩn mã hóa âm đƣợc sử dụng phổ biến hệ sở liệu âm nhạc, tìm kiếm chƣơng trình thử nghiệm 20 http://www.Lrc-tnu.edu.vn Phùng Thị Thu Hiền cs Tạp chí KHOA HỌC & CƠNG NGHỆ file âm PCM Wave có tần số lấy mẫu KHz, mã hóa bít / mẫu, thu từ điệu ngân nga không lời (humming) đoạn hát không nhạc (singing) với giai điệu tƣơng ứng với 20 nhạc MIDI huấn luyện Các tham số thực nghiệm Cao độ Pitch đƣợc tính theo phƣơng pháp tự tƣơng quan ACF với tham số: kích cỡ khung 256 ms, không chồng lấp Sau tính Pitch hàm ACF (AutoCorrelation Function), pitch đƣợc làm trơn lọc trung vị Phƣơng pháp phân lớp sử dụng thuật toán thời gian động DTW tiến hành so sánh chuỗi Pitch đầu vào cần tìm kiếm tính từ file Wave với lần lƣợt chuỗi Pitch file MIDI sở liệu Thuật toán thời gian động cho phép so sánh chuỗi Pitch có độ dài khác với sai số nhỏ Độ tƣơng tự chuỗi pitch sau đƣợc tính tốn khoảng cách Euclid để tìm chuỗi phù hợp Kết thực nghiệm đánh giá Phƣơng pháp trích đặc trƣng giai điệu dùng tham số cao độ Pitch (hay tần số F0) sử dụng đặc trƣng giá trị cao độ biến đổi cao độ làm tham số so sánh Do vậy, hệ thống không yêu cầu khắt khe mẫu đầu vào tìm kiếm đƣợc tập nhiều kết đầu có giai điệu tƣơng tự Ƣu điểm hệ thống tìm đƣợc nhiều kết dựa giai điệu mà cần ngƣời sử dụng cung cấp giai điệu hát cách tƣơng đối nhƣ hát thử không nhạc, đánh thử đoạn nhạc hay ngân nga giai điệu khơng có lời (humming) Nhƣợc điểm hệ thống kết tìm kiếm thiếu xác số hát khác có phần nhỏ giai điệu tƣơng tự Trong chƣơng trình thực nghiệm, kết nhận dạng sau 20 lần 100% Kết cao kết công bố [8] [10] dù dùng thuật toán Lý do chƣơng trình demo thử nghiệm sở liệu nhỏ Tỷ lệ nhận dạng giảm xuống dùng sở liệu lớn (đặc biệt sở liệu có hát có phần tƣơng tự nhau), tỷ lệ nhận dạng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 58 61(12/2): 55 - 59 tìm kiếm giảm xuống độ dài mẫu âm đầu vào nhỏ Về mặt thời gian, thời gian tìm kiếm cho file Wave (dài khoảng phút) xấp xỉ 0.2 s với điều kiện huấn luyện trƣớc Thời gian chấp nhận đƣợc với ngƣời sử dụng Thời gian tìm kiếm [8] lớn thực nghiệm sở liệu âm nhạc lớn Chƣơng trình mơ đƣợc xây dựng phần mềm matlab: Hình Kết chạy chƣơng trình Hƣớng phát triển Trƣớc hết cần xây dựng sở liệu âm nhạc đủ lớn để thử nghiệm Từ đánh giá đƣợc độ xác, hiệu phƣơng pháp tìm kiếm đề xuất phƣơng pháp cải tiến thao tác trích đặc trƣng phân lớp hệ thống tìm kiếm Hƣớng nghiên cứu tìm hiểu sâu phƣơng pháp phân lớp liệu triển vọng nhƣ dùng mạng Neural, giải thuật di truyền GA, mô hình Markov ẩn HMM,… TÀI LIỆU THAM KHẢO [1] E.Riskin and R.Gray, “A greedy tree growing algorithm for the design of variable rate vector quantizers”, IEEE Trans On Sig.Proc, Nov 1991 [2] J.-S Roger Jang, Hong-Ru Lee, "Hierarchical Filtering Method for Content-based Music Retrieval via Acoustic Input", The 9th ACM Multimedia Conference, PP 401-410, Ottawa, Ontario, Canada, September 2001 http://www.Lrc-tnu.edu.vn Phùng Thị Thu Hiền cs Tạp chí KHOA HỌC & CÔNG NGHỆ [3] Beth Logan and Ariel Salomon, “A Music Similarity Function Based on Signal Analysis”, Cambridge Research Laboratory [4] S.Blackburn and D De Roure, “A tool for content based navigation of music”, in ACM Multimedia ,1998 [5] R Mc Nab, L Smith, I Witten, C.Henderson, and S.Cunningham, “Towards the digital music library: Tune retrieval from acoustic input,” in Digital Libraries 1996, 1996, pp.11-18 [6] A.Ghias, J.Logan, D Chamberlin and B.Smith, “Query by humming,” in ACM Multimedia, 1995 61(12/2): 55 - 59 [7] M Goto, “A predominant-F0 estimation method for CD recordings: MAP estimation using EM algorithm for adaptive tone models,” in Proc ICASSP, 2001 [8] Beth Logan and Stephen Chu, “Music Summarization Using Key Phrases”, Cambridge Research Laboratories [9] J.T Foote, “Content-based retrieval of Music and Audio,” in SPIE, 1997, p.p 138- 147 [10] J.-S Roger Jang, Hong-Ru Lee, "Hierarchical Filtering Method for Content-based Music Retrieval via Acoustic Input", The 9th ACM Multimedia Conference, PP 401-410, Ottawa, Ontario, Canada, September 2001 SUMMARY USING FUNDAMENTAL FREQUENCY AND ALGORITHM WARPING (DTW) TO SEARCH CONTEND MUSIC DYNAMIC TIME Phung Thi Thu Hien1, Thai Quang Vinh2, Phung Trung Nghia3 , Le Tuan Anh4 University of Technology, Academy of Information Technology - Vietnam Academy of Science and Technology Japan Advanced Institute of Science and Technology , 4Faculty of information Technology- Thai Nguyen University Song searching in a database is interesting field which attract many researchers recently Music searching in current database is usually based on text query In a huge multimedia database, contentbased music searching becomes incredible This paper presents the content-based music searching method using F0 and the DTW algorithm Experimental results show that this is an effective method and need to continue researching Keywords: Dynamic Time Warping, Pitch Tel: 0986060545, Email: pthientng@gmail.com Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 59 http://www.Lrc-tnu.edu.vn ... pháp phân lớp sử dụng thuật toán thời gian động DTW tiến hành so sánh chuỗi Pitch đầu vào cần tìm kiếm tính từ file Wave với lần lƣợt chuỗi Pitch file MIDI sở liệu Thuật toán thời gian động cho phép... nhỏ Về mặt thời gian, thời gian tìm kiếm cho file Wave (dài khoảng phút) xấp xỉ 0.2 s với điều kiện huấn luyện trƣớc Thời gian chấp nhận đƣợc với ngƣời sử dụng Thời gian tìm kiếm [8] lớn thực... file âm MIDI định dạng file đơn giản, kích cỡ nhỏ gọn nhƣng biểu diễn đƣợc giai điệu âm nhạc Do đó, bƣớc huấn luyện, chƣơng trình sử dụng 20 nhạc định dạng MIDI PCM Wave chuẩn mã hóa âm đƣợc sử dụng