TÌM KIẾM ÂM NHẠC THEO NỘI DUNG SỬ DỤNG ĐẶC TRƢNG ĐƢỜNG BAO PHỔ VÀ PHƢƠNG PHÁP PHÂN CỤM K-MEANS Phùng Thị Thu Hiền1, Vũ Tất Thắng2, Thái Quang Vinh2, Nguyễn Văn Huy1 Trường Đại học Kỹ thuật Công nghiệp – ĐH Thái Nguyên, Viện Công nghệ thông tin - Viện KHCN Việt nam TÓM TẮT Trong sở liệu đa phương tiện lớn vấn đề tìm kiếm âm nhạc theo nội dung quan trọng Tìm kiếm âm nhạc sở liệu thường dựa sở tìm kiếm mục Tuy nhiên, việc tìm kiếm âm nhạc theo mục có nhiều nhược điểm Nhiều người dùng khơng nhớ từ khóa text hát tên hát, tác giả, ca sĩ lời hát Tìm kiếm âm nhạc theo nội dung khắc phục nhược điểm Trong cách tiếp cận truyền thống, vector đặc trưng tín hiệu âm xây dựng từ đặc trưng vật lý âm độ to, độ cao, lượng, phổ tần số,… Gần đây, số nghiên cứu giới tập trung vào cách tiếp cận khác, áp dụng kiến thức xử lý tín hiệu âm thanh, phân tích mơ hình tạo âm thanh, mơ hình cảm thụ âm người giúp việc tính tốn vector đặc trưng âm xác hạn chế tối đa thơng tin dư thừa Bài báo trình bày phương pháp tìm kiếm âm nhạc theo nội dung dùng đặc trưng đường bao phổ Mel Cepstral, xây dựng dựa mơ hình cảm thụ âm ngườ, thuật tốn phân cụm K-means Từ khóa: Vector đặc trưng, Mel Cepstral, K-mean, MFCC ĐẶT VẤN ĐỀ Tìm kiếm âm nhạc theo nội dung lĩnh vực nghiên cứu nhiều nhà nghiên cứu quan tâm Hiện có số phương thức áp dụng tìm kiếm âm nhạc theo nội dung Theo Bel Logan [3] cấu trúc âm âm nhạc quan trọng Vì cần phải có hệ thống nhận biết độ tương tự âm theo cách gần giống hệ thống nghe người, hệ thống thính giác người dễ dàng thu nhận dạng nhóm âm nốt nhạc hay âm riêng lẻ David Pye [7] áp dụng phương pháp nhận dạng thay đổi phổ tiếng nói với hai kỹ thuật chính, Gaussian Mixture Modelling (GMM) – mơ hình phân loại độ vang âm phương thức Tree-Based Vector Quantization (TreeQ) (Lượng tử hoá vector dựa cấu trúc cây) Các kỹ thuật yêu cầu biểu tham số mẫu âm thành vector đặc trưng Mel Frequency Cepstral Coefficients (MFCC) - hệ số Mel sử dụng hệ số sở xử lý tiếng nói Những giá trị khác thể hệ thống số dựa việc kết nối đặc trưng độ cao, độ to hệ số tần số Mel [9] Foote [9] thiết kế hệ thống mục âm nhạc dựa biểu đồ đặc trưng MFCC xuất phát từ vector lượng tử hóa Beth Logan [3] thực theo cách Foote sử dụng biểu đồ đặc trưng MFCC sử dụng thêm giải thuật phân cụm K-means Phương thức ông thực sau kỹ thuật phục hồi âm thực Liu Huang [11] Trong nghiên cứu giác quan người, phương thức sử dụng hệ số tần Mel để biểu âm tham số chứng minh thành công MFCC tạo chữ ký hay dấu riêng cho hát Việc so sánh chữ ký với nội dung âm hiệu quả, khơng liên quan tới liệu bỏ q trình tính tốn chữ ký, kết cải thiện việc tìm kiếm liệu với tỷ lệ thiết lập liệu nhỏ yêu cầu lưu trữ nhớ nhỏ Tel:0986060545, Email: pthientng@gmail.com Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn | 80 Phùng Thị Thu Hiền cs Tạp chí KHOA HỌC & CƠNG NGHỆ Bài báo trình bày phương pháp tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng đường bao phổ kết hợp phương pháp phân cụm K-means, cuối đưa số kết thực nghiệm 74(12): 80 - 85 khung Quá trình phân khung thể hình CƠ SỞ LÝ THUYẾT Quá trình lọc theo thang Mel Cepstral Theo Beth Logan [3], MFCC gồm bước: Chia tín hiệu thành khung Với khung, ta thu biên độ phổ Lấy log biên độ Chuyển đổi sang thang Mel Thực biến đổi Cosine rời rạc Hình Q trình tạo đặc tính MFCC Quan sát q trình ta thấy, âm chia thành khung có độ dài cố định Mục đích để lấy mẫu đoạn tín hiệu nhỏ (theo lý thuyết ổn định) Trong việc lấy mẫu liệu, xem xét đến tín hiệu âm số hóa việc rời rạc hóa giá trị khoảng cần phải chắn tốc độ lấy mẫu đủ lớn để mơ tả tín hiệu dạng sóng Tấn số lấy mẫu nên gấp đơi tần số dạng sóng định lý Nyquist Tốc độ lấy mẫu phổ biến 8000, 11025, 22050, 44000, thông thường sử dụng tần số 10kHz Phân khung trình chia mẫu tín hiệu thành số khung chồng lấp lên khơng, mục đích phân khung để lấy mẫu đoạn tín hiệu nhỏ Bản chất âm khơng ổn định, vậy, biến đổi Fourier thể tần số xảy toàn miền thời gian thay thời gian cụ thể Do tín hiệu khơng ổn định, nên chia nhỏ thành cửa sổ rời rạc, nhờ tín hiệu cửa sổ trở nên tĩnh phép biến đổi Fourier thực Hình Phân khung tín hiệu Hàm cửa sổ bỏ hiệu ứng phụ vector đặc trưng cepstral thực khung cửa sổ Thông thường, cửa sổ Hamming sử dụng, cửa sổ có dạng: 2 n w(n) 0.54 0.46cos , n N (1) N 1 Ý tưởng giảm bớt méo phổ việc sử dụng cửa sổ để giảm tín hiệu không điểm bắt đầu kết thúc khung Biến đổi Fourier rời rạc khung tính tốn lấy logarith biên độ phổ Thơng tin pha bị bỏ qua biên độ phổ quan trọng pha Thực lấy logarith biên độ phổ âm lượng tín hiệu xấp xỉ logarith Bước biến đổi phổ theo thang Mel Từ kết này, vector Mel – spectral thành phần tương quan cao, bước cuối thực biến đổi cosine rời rạc để tổng hợp vector phổ Mel để tương quan lại thành phần Độ lệch tần số Mel Để mơ tả xác tiếp nhận tần số hệ thống thính giác, người ta xây dựng thang khác – thang Mel Độ lệch tần số Mel làm nhẵn phổ làm lên tần số cảm thụ có nghĩa Biến đổi Fourier lên tín hiệu qua lọc thơng dải để làm đơn giản phổ mà không làm liệu Điều thực cách tập hợp thành phần phổ thành dải tần số Phổ làm đơn giản hóa sử dụng giàn lọc để tách phổ thành kênh Các lọc đặt cách thang Mel lấy logarit thang tần số, kênh có tần số thấp khơng gian tuyến tính kênh có tần số cao khơng gian logarit Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn | 81 Phùng Thị Thu Hiền cs Tạp chí KHOA HỌC & CƠNG NGHỆ Tai người không cảm nhận thay đổi tần số tiếng nói tuyến tính mà theo thang Mel Thang tần số Mel tuyến tính tần số 1kHz logarit tần số cao 1kHz Ta chọn tần số 1kHz, 40 dB ngưỡng nghe 1000 Mel Do công thức gần biểu diễn quan hệ tần số thang Mel thang tuyến tính sau: (2) Một phương pháp để chuyển đổi sang thang Mel sử dụng băng lọc Khoảng cách băng lọc định nghĩa số tần số mel theo thời gian Băng lọc áp dụng miền tần số, xem điểm thu lọc Với khung nhỏ tốt sử dụng lọc dạng tam giác chí hình chữ nhật độ phân giải thấp miền tần số thấp Hình Băng lọc khoảng cách theo tần số mel Mỗi lọc băng lọc nhân với phổ tín hiệu có giá trị đơn cường độ lọc trả lại Điều đạt qua tính tốn ma trận đơn Kết tổng biên độ dải lọc làm giảm độ xác tới mức mà tai người cảm nhận Hình Phổ sau lọc theo thang Mel Quá trình độ lệch tần số mel thực theo ba bước sau: 74(12): 80 - 85 Cố định vùng giá trị lọc đưa thang Đặt M số băng lọc yêu cầu Phân bố thang tần số Mel Chuyển đổi từ Hz sang Wi thang tuyến tính Mối quan hệ mel frq cho công thức: m=ln(1+f/700)*1000/ln(1+1000/700) (3) Phƣơng pháp phân cụm K-means K-means phương pháp phân cụm Phương pháp quan sát k cụm liệu, trả lại vector số K cụm quan sát K-means quan sát liệu tìm cách phân vùng liệu cho liệu cụm gần tốt so với liệu cụm khác phải xa tốt Mỗi cụm xác định thành phần thành phần trung tâm Thành phần trung tâm cụm thành phần mà có tổng khoảng cách từ đối tượng cụm đến nhỏ Cụm trung tâm tính toán khác với thước đo khoảng cách, để tổng khoảng cách nhỏ với tiêu chuẩn đánh giá Để thực phương thức K-means ta sử dụng thuật tốn lặp để tính tổng khoảng cách từ đối tượng tới cụm trung tâm nhỏ tồn cụm Thuật tốn di chuyển đối tượng cụm tổng khoảng cách giảm Kết tạo cụm có khoảng cách đủ nhỏ có độ phân cách hợp lý Độ nhỏ liệu việc thay đổi tham số đầu vào giống với số lượng cụm trung tâm số lần lặp Ý tưởng tìm cách xác định cụm trung tâm k từ cụm Nên lựa chọn điểm trung tâm vị trí khác cho kết khác Trong điều kiện lý tưởng chúng phải cách xa điểm khác tối đa khả Mỗi điểm liệu gắn với điểm trung tâm gần Điểm trung tâm thứ k tính tốn lại từ kết Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn | 82 Phùng Thị Thu Hiền cs Tạp chí KHOA HỌC & CÔNG NGHỆ phân cụm bước trước q trình nhóm điểm liệu với điểm trung tâm gần thực lặp lặp lại điều tiếp tục xác định điểm trung tâm Phương pháp phân cụm K-means tìm nhóm có kích thước nhỏ tổng bình phương cụm, sử dụng thuật tốn sai số bình phương để tính bình phương khoảng cách Euclidean Thuật toán K-means thực theo bước sau: Đặt K điểm vào vùng phân cụm đối tượng Các điểm mơ tả nhóm trung tâm Gán đối tượng vào nhóm có điểm trung tâm gần Khi tất đối tượng đưa vào nhóm, tính tốn lại vị trí K điểm trung tâm Thực lặp lại bước bỏ điểm trung tâm xa Điều giúp phân cách đối tượng thành nhóm có kích thước nhỏ Thủ tục lặp kết thúc điểm trung tâm không thay đổi Tuy nhiên, cần lưu ý thuật tốn khơng thiết phải đưa kết tối ưu Hình mơ tả bước nêu Mỗi bước tương ứng với trình tự biểu đồ Chọn số lượng cụm k Ví dụ k=5 Tạo ngẫu nhiên vị trí trung tâm cụm Tại Centre tìm điểm trung tâm Thực bước nhảy Thực lặp lại kết thúc Hình Thủ tục K-means Hình minh họa phương thức phân cụm K hình Chú ý liệu tương tự nhóm 74(12): 80 - 85 Hình Phương pháp phân cụm K-means KẾT QUẢ THỰC NGHIỆM Chuẩn bị liệu Dữ liệu bao gồm 10 hát nhạc trẻ Việt nam lưu định dạng PCM wave, tần số lấy mẫu 44 KHz, mã hóa 16 bit mẫu Mỗi hát trích đoạn ngắn < s sử dụng làm mẫu tìm kiếm Các tham số thực nghiệm Đặc trưng MFCC cài đặt với tham số sau : Kích cỡ khung 512 ms, không sử dụng khung chồng lấp, số lọc dãy băng lọc Mel 20, số hệ số Ceptral 12, không sử dụng hệ số đạo hàm Delta, kết hợp hệ số MFCC với hệ số lượng Giống Beth Logan [8], phân lớp cách phân hệ số cepstral thành 16 cụm theo thuật toán K-means chuẩn Sử dụng khoảng cách Euclidean để tính tốn độ tương tự Kết thực nghiệm đánh giá Chương trình demo tìm kiếm hát theo đặc trưng đường bao phổ MFCC thử nghiệm sở liệu nhỏ (10 hát) nên thiết kế tích hợp thao tác huấn luyện nhận dạng cho trực quan Thao tác tìm kiếm nhận dạng thử nghiệm với mẫu âm riêng rẽ ghi lại kết thủ công Kết nhận dạng sau tổng hợp lại kết nhận dạng hệ thống Trong thực tế lượng liệu huấn luyện lớn cần thực huấn luyện trước lưu sở liệu Thao tác nhận dạng tìm kiếm tách độc lập so sánh với sở liệu huấn luyện lưu Việc tách riêng thao tác huấn luyện tìm kiếm làm giảm thời gian tiến hành thử nghiệm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn | 83 Phùng Thị Thu Hiền cs Tạp chí KHOA HỌC & CƠNG NGHỆ Trong chương trình thử nghiệm, kết nhận dạng cuối sau 10 lần thử nghiệm 100% Kết cao kết công bố [8] [10] dù dùng thuật tốn Lý do chương trình demo thử nghiệm sở liệu nhỏ Hơn độ dài âm đầu vào (trích đoạn từ file âm cần tìm kiếm) đủ lớn (so với âm tìm kiếm) Tỷ lệ nhận dạng giảm xuống dùng sở liệu lớn (đặc biệt sở liệu có hát có phần tương tự nhau), tỷ lệ nhận dạng tìm kiếm giảm xuống độ dài mẫu âm đầu vào nhỏ Về mặt thời gian, trình huấn luyện sau tìm kiếm hết ~ s với hát Chương trình mơ xây dựng phần mềm matlab: Hình Kết chạy chương trình nội dung”, Luận văn thạc sỹ công nghệ thông tin, Đại học Thái Nguyên, 12/2009 [2] Phùng Thị Thu Hiền, PGS.TS Thái Quang Vinh, Phùng Trung Nghĩa, Lê Tuấn Anh, “Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng tần số F0 giải thuật thời gian động DTW”, Tạp chí Khoa học & Cơng nghệ ISSN, 1859 – 2171, 2009, T55 – 59 [3] Beth Logan and Ariel Salomon, “A Music Similarity Function Based on Signal Analysis”, Cambridge Research Laboratory [4] S.Blackburn and D De Roure, “A tool for content based navigation of music”, in ACM Multimedia ,1998 [5] R Mc Nab, L Smith, I Witten, C.Henderson, and S.Cunningham, “Towards the digital music library: Tune retrieval from acoustic input,” in Digital Libraries 1996, 1996, pp.11-18 [6] A.Ghias, J.Logan, D Chamberlin and B.Smith, “Query by humming,” in ACM Multimedia, 1995 [7] David Pye, “Content Based Methods for the Management of Digital Music” AT& T Labaratories Cambridge [8] Beth Logan and Stephen Chu, “Music Summarization Using Key Phrases”, Cambridge Research Laboratories [9] J.T Foote, “Content-based retrieval of Music and Audio,” in SPIE, 1997, p.p 138- 147 [10] J.-S Roger Jang, Hong-Ru Lee, "Hierarchical Filtering Method for Content-based Music Retrieval via Acoustic Input", The 9th ACM Multimedia Conference, PP 401-410, Ottawa, Ontario, Canada, September 2001 [11] Z.Liu and Q.Huang, “Content-based indexing and retrieval by example in audio,” in ICME 2000, 2000 Hƣớng phát triển Cần xây dựng sở liệu âm nhạc đủ lớn để thử nghiệm Từ đánh giá độ xác, hiệu phương pháp tìm kiếm đề xuất phương pháp cải tiến thao tác trích đặc trưng phân lớp hệ thống tìm kiếm Hướng nghiên cứu tìm hiểu sâu phương pháp phân lớp liệu triển vọng dùng mạng Neural, giải thuật di truyền GA, mơ hình Markov ẩn HMM,… TÀI LIỆU THAM KHẢO 74(12): 80 - 85 TÀI LIỆU THAM KHẢO [1] Phùng Thị Thu Hiền, “Trích chọn đặc trưng âm tốn tìm kiếm âm nhạc theo nội dung”, Luận văn thạc sỹ công nghệ thông tin, Đại học Thái Nguyên, 12/2009 [2] Phùng Thị Thu Hiền, PGS.TS Thái Quang Vinh, Phùng Trung Nghĩa, Lê Tuấn Anh, “Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng tần số F0 giải thuật thời gian động DTW”, Tạp chí Khoa học & Cơng nghệ ISSN, 1859 – 2171, 2009, T55 – 59 [1] Phùng Thị Thu Hiền, “Trích chọn đặc trưng âm tốn tìm kiếm âm nhạc theo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn | 84 Phùng Thị Thu Hiền cs Tạp chí KHOA HỌC & CÔNG NGHỆ 74(12): 80 - 85 SUMMARY CONTENT-BASED MUSIC RETRIEVAL USING SPECTRAL ENVELOPE FEATURE AND K-MEANS ALGORITHM Phung Thi Thu Hien1 , Vu Tat Thang2, Thai Quang Vinh2, Nguyen Van Huy1 Thai Nguyen University of Technology Institute of Information Technology - VAST In multimedia database, music retrieval is an important research topic Current music searching is based on text indexing However, this kind of method has some drawbacks It is difficult to remember the text keywords such as song name, author name, singer name or the lyric of songs Content-based music searching overcomes these drawbacks In state of the art approaches, feature vectors of music signal are built based on their physical characteristics as volume, energy, and spectrum.Recently, some researches use another approach, which based on the signal processing techniques incorporating with human auditory analysis This approach minimizes the redundant information as well as accurately represents the music signal This paper presens a method of song searching using Mel ceptral spectral envelope and K-means algorithm Tel: 0986060545, Email: pthientng@gmail.com Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn | 85 ... trình bày phương pháp tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng đường bao phổ kết hợp phương pháp phân cụm K-means, cuối đưa số kết thực nghiệm 74(12): 80 - 85 khung Quá trình phân khung... (3) Phƣơng pháp phân cụm K-means K-means phương pháp phân cụm Phương pháp quan sát k cụm liệu, trả lại vector số K cụm quan sát K-means quan sát liệu tìm cách phân vùng liệu cho liệu cụm gần tốt... liệu âm nhạc đủ lớn để thử nghiệm Từ đánh giá độ xác, hiệu phương pháp tìm kiếm đề xuất phương pháp cải tiến thao tác trích đặc trưng phân lớp hệ thống tìm kiếm Hướng nghiên cứu tìm hiểu sâu phương