Phùng Thị Thu Hiền Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 33 - 38 SO SÁNH HAI PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG ÂM THANH: ĐƯỜNG BAO PHỔ (MFCC) VÀ CAO ĐỘ PITCH TRONG VIỆC TÌM KIẾM ÂM NHẠC THEO NỘI DUNG Phùng Thị Thu Hiền1*, Đoàn Xuân Ngọc2, Phùng Trung Nghĩa3 Trường Đại học Kỹ thuật Công nghiệp - ĐH Thái Nguyên Cục thuế tỉnh Thái Nguyên Trường Đại học CNTT&TT - ĐH Thái Nguyên TÓM TẮT Trong cách tiếp cận truyền thống, vector đặc trưng tín hiệu âm xây dựng từ đặc trưng vật lý âm độ to, độ cao, lượng, phổ tần số,… Có nhiều phương pháp trích chọn đặc trưng âm nghiên cứu để áp dụng vào tốn tìm kiếm âm nhạc theo nội dung Tuy nhiên hai phương pháp phổ biến đánh giá cao phương pháp sử dụng đường bao phổ (MFCC) phương pháp sử dụng cao độ (F0) Bài báo nghiên cứu hai phương pháp đồng thời so sánh đánh giá hiệu phương pháp Từ khóa: Vector đặc trưng, Mel Cepstral, K-means, F0, pitch, DTW ĐẶT VẤN ĐỀ* Hiện nay, có nhiều nghiên cứu vấn đề trích chọn đặc trưng âm tốn tìm kiếm âm nhạc theo nội dung S.Blackburn D.DeRoure [4] sử dụng kỹ thuật hiệu chỉnh cao độ (F0) để xác định giai điệu đoạn nhạc Trong nghiên cứu mình, S.Blackburn D.DeRoure so sánh tính tốn độ tương tự hát kỹ thuật so khớp xâu Trong đó, Mc Nab, Smith, Witten, Henderson Cunningham [5] sử dụng phương thức tính tốn giai điệu cách ước lượng cao độ Pitch để so sánh phiên âm hát Tuy nhiên, theo nghiên cứu Beth Logan [3] cấu trúc âm âm nhạc quan trọng Vì cần phải có hệ thống nhận biết độ tương tự âm theo cách gần giống hệ thống nghe người, hệ thống thính giác người dễ dàng thu nhận dạng nhóm âm nốt nhạc hay âm riêng lẻ Bài báo trình bày phương pháp tìm kiếm âm nhạc theo nội dung sử dụng theo hai đặc trưng, thứ sử dụng đặc trưng cao độ (Pitch) thứ hai sử dụng đặc trưng đường * bao phổ (MFCC), cuối đưa số kết thực nghiệm để so sánh hiệu hai phương pháp CƠ SỞ LÝ THUYẾT Sử dụng đặc trưng cao độ Cao độ Pitch Khơng khí qua quản làm quản rung lên Sự rung động với tỷ lệ gọi tần số – f0 Tần số phụ thuộc vào kích cỡ áp lực quản Tần số liên quan đến âm cao độ ước lượng xác từ tín hiệu âm Độ cao hay độ trầm bổng âm tần số sóng học âm Âm phát độ cao định Độ cao âm phụ thuộc vào tần số dao động Đối với tiếng nói, tần số dao động dây quy định độ cao giọng nói người Mỗi người có cao độ giọng nói khác nhau, độ cao nữ giới thường cao nam giới độ cao trẻ em thường cao người lớn Cao độ Pitch đại lượng tỷ lệ nghịch với tần số F0 Pitch thuộc tính tiếng nói Tai người nhạy cảm với thay đổi tần số Tel: 0986060545; Email: pthientng@gmail.com 33 Phùng Thị Thu Hiền Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ tham số khác tín hiệu tiếng nói Ước lượng pitch khó thay đổi sóng âm Sóng âm thay đổi nhỏ chu kỳ, thời điểm lựa chọn để đo ảnh hưởng tới chu kỳ cao độ Ước lượng cao độ thiếu xác xuất sóng hài hài bậc ba cao độ tần số Có nhiều thuật tốn phương thức ước lượng cao độ Các thuật toán ước lượng pitch cố gắng để định vị chu kỳ miền thời gian tín hiệu tiếng nói miền tần số tín hiệu âm Các cách tính Pitch hầu hết dựa vào phương pháp tự tương quan biến thể Ước lượng Pitch phương pháp tự tương quan Ước lượng Pitch thường sử dụng phương pháp tự tương quan Ý nghĩa tương quan đo độ tương tự tín hiệu, tự tương quan đo độ tương tự biến đổi theo thời gian Phương thức tự tương quan khoảng thời gian ngắn đoạn s(m), tín hiệu rời rạc theo thời gian s(n) biểu diễn là: r (k ) = N −1− k ∑ s (m) s (m + k ) m=0 [1] k độ trễ N độ dài đoạn, s(m) = miền (0 ≤ m ≤N − 1) Hình 1: Dạng sóng tự tương quan miền thời gian đoạn tiếng nói ngắn Hình thể đoạn âm ngắn tính tự tương quan đoạn Chu kỳ cao độ theo dõi khoảng 80 mẫu Đỉnh nhô lên sóng tự tương quan biểu thị điều Giá trị cực xuất trình tự tương quan mức trễ Một giá trị 34 112(12)/2: 33 - 38 cực đại khác mức trễ 162, cho thấy kết hợp tốt dịch chuyển hai lần chu kỳ cao độ Vì vậy, để ước lượng cao độ pitch, cửa sổ âm nên chứa hai chu kỳ cao độ (N >2/Fo) Ước lượng Cepstral Pitch Khi tín hiệu tuần hồn với tần số Fo chứa nhiều sóng hài sát đoạn phổ tương ứng thể đường gợn sóng cấu trúc hài Cepstrum tín hiệu thể chóp cao tần số 1/F0 Cepstrum định nghĩa biến đổi Fourier rời rạc ngược cường độ với tín hiệu vào s(n) Cepstrum biểu diễn là: Cepstrum (d ) = IFFT (log 10 | FFT ( s (n)) |) [2] d miền tần số tín hiệu cepstrum Các hệ số số miền thời gian thành phần tuần hoàn tín hiệu gốc Thơng tin cao độ trích tín hiệu âm khơng chứa thành phần phổ có tần số mà cịn chứa hài Cepstrum thu có cấu trúc lặp lại theo cường độ phổ Miền tần số thấp cepstrum thể dạng vocal tract hệ thống tiếng nói người Tần số cao cepstrum mơ tả thơng tin kích thích tiếng nói – pitch Hình thể cường độ phổ cepstrum tương ứng với đoạn tiếng nói hình Giá trị Cepstrum(0), bỏ để thu giải động tốt Đỉnh nhô lên tần số 82 biểu thị chu kỳ cao độ Tần số tương ứng với tỷ lệ mẫu tín hiệu gốc, 8000Hz Vì tần số 82 thể tần số cao độ 8000/82 = 97.2 Hz Cấu trúc quan trọng miền tần số frequency thấp, từ tới 16 miêu tả thông tin vocal tract Với âm hữu thanh, phép phân tích Cepstral đoạn tiếng nói ngắn tạo đỉnh chu kỳ cao độ, âm vơ khơng Phép phân tích Cepstral sử dụng cho đoạn âm hữu hay vô để xác định chu kỳ cao độ, 1/F0 đoạn hữu Phùng Thị Thu Hiền Đtg Tạp chí KHOA HỌC & CƠNG NGHỆ 112(12)/2: 33 - 38 Mơ lại trình tạo âm quan phát âm Cường độ log phổ hai tín hiệu s1 s2 tổ hợp tuyến tính cường độ phổ log thể biểu thức 3: log10(|DFT[s1*s2](k)|) = log10(|s1(k)|) +log10(|s2(k)|) [3] Hình 2: Cường độ Log DFT tần số Cepstrum đoạn tiếng nói hình Sử dụng đặc trưng đường bao phổ MFCC Tần số cảm thụ có nghĩa Tai người nhận biết âm có tần số thấp (