Đỗ Thị Loan Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 89 - 95 NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG PHÂN BIỆT TIẾNG NÓI VỚI ÂM NHẠC Đỗ Thị Loan, Lưu Thị Liễu, Nguyễn Thị Hiền Trường Đại học Công nghệ thông tin Truyền thông – ĐH Thái Nguyên TÓM TẮT Tự động nhận dạng phân biệt tiếng nói với âm nhạc cơng cụ quan trọng nhiều ứng dụng đa phương tiện Để nhận dạng phân biệt tiếng nói với âm nhạc, chúng tơi sử dụng ba đặc trưng: tần suất vượt điểm không cao (HZCRR), tỷ lệ khung có lượng ngắn hạn thấp (LSTER), độ biến thiên phổ (SF) thuật toán sử dụng để huấn luyện nhận dạng K-NN (K Nearest Neighbor) Dữ liệu đoạn nhạc gồm nhiều thể loại từ nhạc không lời tới nhạc có lời (nhạc Việt Nam, nhạc Rock, nhạc Pop, Đồng quê), đoạn tiếng nói giọng nam nữ tiếng Việt Trong báo mục đích nghiên cứu ban đầu chủ yếu nhận dạng phân biệt hai loại âm thanh: tiếng nói âm nhạc với kết thu có độ xác cao, với tiếng nói có độ xác xấp xỉ 84%, âm nhạc 92% Trong tương lai chúng tơi mong muốn phát triển hệ thống có khả nhận dạng phân biệt nhiều lớp âm Từ khóa: Phân biệt, tiếng nói, âm nhạc, nhạc Việt Nam, tiếng Việt GIỚI THIỆU* Nhận dạng phân biệt tiếng nói với âm nhạc phần hệ thống phân loại âm ASC (Audio Signal Classifier) [1] hay hệ thống nhận dạng khung cảnh âm CASR (Computeral Audio Scence Recognizer) [2], nhận dạng chương trình ti vi [3], [4], hay hệ thống phiên dịch nốt nhạc AMTS [5] Để xây dựng hệ thống hồn chỉnh khó khăn âm phong phú, đa dạng loại có đặc trưng riêng, kết hợp chúng tạo nên dạng âm khác nhau, điều ảnh hưởng lớn đến việc phân loại khung cảnh âm Hầu hết nghiên cứu nhận dạng phân biệt lớp âm theo trường hợp mà bạn đưa số lớp, vài điều kiện ràng buộc khác Chẳng hạn phân loại âm thành bốn lớp: âm nhạc, tiếng nói, nhiễu, khoảng lặng [4], [6] phân thành tiếng nói âm nhạc không [3], [7] SỰ KHÁC NHAU GIỮA TIẾNG NĨI VÀ ÂM NHẠC Các tín hiệu âm tín hiệu có ý nghĩa khoảng thời gian ngắn Khi kiểm * tra tín hiệu âm khoảng thời gian đủ ngắn (giữa 100msec), ta nhận thấy đặc điểm cụ thể Tuy nhiên thời gian dài, đặc tính tín hiệu thay đổi để phản ánh đặc điểm chuỗi tín hiệu phát biểu hay đoạn nhạc Trong phần này, đưa số nhận định khác biệt tiếng nói âm nhạc sau: - Thanh điệu: Giai điệu có ý nghĩa biểu thị dạng sóng âm Âm nhạc có xu hướng tạo từ đa dạng tần số Cịn tiếng nói có giai điệu từ sắc điệu giọng nói người nói - Chuỗi thay thế: Tiếng nói cho ta chuỗi tiếng ồn, khoảng lặng xem kẽ đoạn âm nhạc khơng có Nói cách khác, lời nói có tín hiệu phân phối thông qua quang phổ ngẫu nhiên so với âm nhạc - Băng thơng: Tiếng nói thường có 90% lượng tập trung tần số thấp 4kHz (và hạn chế đến 8kHz), âm nhạc mở rộng thơng qua giới hạn khoảng 20kHz - Phân phối: Năng lượng tiếng nói thường tập trung tần số thấp sau giảm nhanh miền tần số cao Còn tín hiệu âm nhạc trải Tel: 0972998865; Email:dtloan@ictu.edu.vn 89 Đỗ Thị Loan Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ - Tần số bản: với tiếng nói cụ thể, ta xác định tần số với âm nhạc khơng - Khoảng âm điệu: Thời hạn nguyên âm tiếng nói thường xuyên Âm nhạc thể biến thể rộng lớn chiều dài giai điệu, khơng hạn chế q trình phát âm nhạc - Năng lượng ngắn hạn: Năng lượng tín hiệu tiếng nói có biến thiên nhiều so với tín hiệu âm nhạc - Tỷ lệ vượt điểm khơng: Tùy thuộc vào tín hiệu âm nhạc tiếng nói thơng thường tỷ lệ vượt điểm khơng tín hiệu tiếng nói lớn tín hiệu âm nhạc LỰA CHỌN ĐẶC TRƯNG VÀ PHƯƠNG PHÁP NHẬN DẠNG PHÂN BIỆT TIẾNG NÓI VỚI ÂM NHẠC Cho tới có nhiều đặc tính tín hiệu âm để nhận dạng, phân biệt tiếng nói âm nhạc hay hệ thống nhận dạng phân loại khác Mỗi nghiên cứu đưa số lượng đặc tính tín hiệu âm phương thức sử dụng để phân loại Các đặc tính tín hiệu âm thường chia làm hai loại là: đặc tính vật lý đặc tính cảm thụ âm người Đặc tính vật lý đặc tính đặc trưng miền tần số đặc trưng miền thời gian như: biên độ, tần số vượt điểm không ZCR, lượng ngắn hạn, hệ số phổ MFCC, cặp phổ tuyến tính LSP (Linear Spectrum Pair) [6], độ biến thiên phổ SF Đặc tính cảm thụ âm người đặc tính người cảm nhận nhịp điệu, độ cao âm (Pitch), độ ngân, âm sắc,… Cũng nhiều nghiên cứu trước đây, để nhận dạng phân biệt tiếng nói với âm nhạc nói riêng hay nhận dạng phân biệt lớp âm khác nói chung sử dụng đặc trưng vật lý đủ Bởi báo này, dùng đặc trưng liên quan tới miền tần số miền thời gian (đặc trưng vật lý) Dựa phân tích, đánh giá đặc điểm tín hiệu âm thanh, âm nhạc tiếng nói đặc điểm âm học, dải tần, đặc điểm 90 112(12)/2: 89 - 95 phân bố lượng, lựa chọn ba đặc trưng: Tỷ lệ tần suất vượt qua điểm không cao HZCRR (Hight Zero Crossing Rate Ratio), tỷ lệ khung có lượng ngắn hạn thấp LSTER (Low Short Time Energy Ratio) độ biến thiên phổ SF (Spectrum Flux) Còn phương pháp nhận dạng phân biệt sử dụng thuật toán K láng giêng gần K-NN (K Nearest Neighbor) [8] Lựa chọn đặc trưng Đặc trưng tần suất vượt qua điểm khơng cao - HZCRR Hình 1: Biểu đồ tần suất vượt điểm khơng tín hiệu âm Công thức HZCRR sau: HZCRR = N −1 2N ∑ [ sign (ZCRn – THL) +1 n=0 Trong đó: - n thứ tự cửa sổ trích chọn đặc trưng - N độ rộng cửa sổ trích chọn đặc trưng - ZCR tần suất vượt điểm không khoảng ngắn theo công thức : ZCRk = 2F k ∑ [ sign ( x m = k − F +1 m ) − sign ( x m − )] F: độ dài khoảng ngắn - thường frame - THL tần suất vượt điểm khơng trung bình cửa sổ theo công thức: THL = N N −1 ∑ [ ZCR n=0 n ] Đặc trưng lượng ngắn hạn tín hiệu - LSTER Cơng thức tính LSTER sau: LSTER = 2N N −1 ∑ [ sign ( THL n=0 − STE n ) + 1] Đỗ Thị Loan Đtg Tạp chí KHOA HỌC & CƠNG NGHỆ Trong đó: - STE lượng khoảng ngắn (trong frame) theo công thức: k ( x w ) ∑ k m k −m m = k − F +1 W cửa sổ (có thể chữ nhật hamming) - THL lượng trung bình theo cơng thức: STE = THL = 2N N −1 ∑ [ STE ] n =0 n Đặc trưng độ biến thiên phổ - SF Trong đó: - K bậc phổ DFT - δ số bé (=0.01) để loại trường hợp log(0) - A(n,m) biến đổi Fourier rời rạc(DFT) theo công thức: 2π |A (n, m ) = j mi ∞ | ∑ x ( i ) w ( nL − i ) e L i = −∞ Hình Biểu đồ histogram độ biến thiên phổ theo không gian chiều (a): music (b):speech Thuật toán KNN Thuật toán K-NN [8] phương pháp phân loại dựa tiêu không gian khoảng cách Xác định điểm thuộc miền cách tính tốn dựa khoảng cách khơng gian Có nhiều phương pháp để tính khoảng cách vectơ phương pháp đo khoảng cách Euclidean, phương pháp đo khoảng cách Hamming, phương pháp đo khoảng cách 112(12)/2: 89 - 95 Mahalanobis hay phương pháp đo khoảng cách City Block Bài tốn: Giả sử ta có khơng gian đa chiều (Y1, Y2,…,Yn) có tập hợp khu vực A, B đó: - Khu vực A ta biết tồn đối tượng XA1, XA2, … XAn với XAi={ YAi1, YAi2,…, YAin} - Khu vực B ta biết tồn đối tượng XB1, XB2, … XBn với XBi={ YBi1, YBi2,…, YBin} Có đối tượng Xi ( Yi1, Yi2,…, Yin) ta cần xác định đối tượng Xi thuộc khu vực A hay B Hình 3: Mơ tả thuật tốn K-NN Giải thuật: Trong tất đối tượng xác định rõ khu vực A B, ta tìm K đối tượng gần với Xi nhất, K đối tượng xác định xem có đối tượng thuộc khu vực A, đối tượng thuộc khu vực B, khu vực nhiều đối tượng gần Xi Xi có khả thuộc khu vực Để tính khoảng cách vectơ dùng công thức: D(X,X’)= THỰC HIỆN HỆ THỐNG NHẬN DẠNG PHÂN BIỆT TIẾNG NÓI VỚI ÂM NHẠC Hệ thống có dạng tổng qt hình Hoạt động hệ thống gồm hai trình riêng biệt: thứ trình học (huấn luyện) thứ hai trình nhận dạng phân biệt với tín hiệu đầu vào Q trình huấn luyện: Tín hiệu đầu vào đưa vào phân tích đặc trưng Tại chúng xử lý, tính tốn lấy giá trị đặc trưng cần trích chọn phục vụ cho việc xây dựng hệ thống Sau tới khối huấn 91 Đỗ Thị Loan Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ luyện xử lý lưu vào sở liệu (CSDL) mẫu Quá trình huấn luyện dùng phương pháp học có giám sát nghĩa biết rõ phân lớp tập liệu mẫu dùng để học, có hai lớp: tiếng nói âm nhạc Các đặc trưng mẫu lớp trích chọn lưu riêng vào CSDL 112(12)/2: 89 - 95 Tuy nhiên vấn đề phân khung tín hiệu sai số phép biến đổi so với tín hiệu gốc, nên sử dụng hàm cửa sổ để hạn chế sai số độ dài hữu hạn tín hiệu gây phép biến đổi Hàm cửa sổ thường dùng Hamming cho công thức sau: W n = 54 − 46 * cos( 2Πn ) N −1 KẾT QUẢ Cài đặt hệ thống Chúng thực hệ thống nhận dạng phân biệt với tín hiệu đầu vào file âm chuẩn dạng WAVE (*.wav), việc tính tốn, xử lý, phân biệt thực dựa file wave Như phân tích trình huấn luyện gồm bước sau: Hình 4: Mơ hình tổng qt hệ thống Quá trình nhận dạng phân biệt: Trình tự thực khác tín hiệu sau trích chọn đặc trưng đưa vào khối nhận dạng phân biệt Tại khối phân tích đánh giá với CSDL mẫu huấn luyện thơng qua thuật tốn K-NN Kết sau chuyển tới định để xác định xem tín hiệu hiệu thuộc lớp tín hiệu Vectơ đặc trưng vectơ chiều ta chọn đặc trưng trình bày Phân khung tín hiệu: Do tín hiệu tiếng nói ổn định khoảng vài chục ms, nên tiến hành phép phân tích, biến đổi người ta thường chia tín hiệu thành có đoạn nhỏ khoảng 10 đến 30ms, gọi phân khung, khung tín hiệu liên tiếp chồng khoảng ½ độ dài Hình 5: Phân khung tín hiệu 92 Hình 6: Mơ hình q trình huấn luyện Với dãy tín hiệu âm đọc được, ta thực xác định khung tín hiệu, tính thơng số STE, ZCR, A dãy tín hiệu Giao diện cài đặt trình huấn luyện: Hình 7: Giao diện huấn luyện, tạo liệu mẫu Đỗ Thị Loan Đtg Tạp chí KHOA HỌC & CƠNG NGHỆ - Bên phải đồ thị tín hiệu: khung cửa sổ thứ dạng tín hiệu âm thanh, lượng khoảng ngắn hạn tần suất vượt điểm khơng tín hiệu âm - Bên trái điều khiển: mở file wave, nghe thử, xác định tiếng nói hay âm nhạc, lưu liệu Quá trình nhận dạng: 112(12)/2: 89 - 95 khung cửa sổ thứ thể tiếng nói hay âm nhạc (tiếng nói có biên độ 2/3 khung cịn âm nhạc có biên độ = 1/3 khung) - Bên trái khung điều khiển mở, chọn tín hiệu file wave Ngồi cịn có lựa chọn tham số K (K số phần tử thuộc lớp đặc trưng mẫu gần với mẫu cần nhận dạng phân biệt nhất) Đánh giá Chương trình thực phân biệt tiếng nói âm nhạc dựa tập tín hiệu âm mẫu mà tơi sưu tầm có : tập hợp tiếng nói tiếng Việt, tập hợp âm nhạc thể loại nhạc không lời số trường phái âm nhạc Hình 8: Mơ hình q trình nhận dạng Q trình nhận dạng có số bước trùng với trình huấn luyện việc đọc liệu file wave, thông số bản, tính thơng số đặc trưng Tập hợp tiếng nói gồm có 1037 file file phát âm từ tiếng Việt, file có độ dài < 1s, có tần số lấy mẫu 16000Hz, bit rate 16bit/mẫu Tập hợp âm nhạc gồm có 77 file file nhạc không lời thể loại R&B, Rock, Country… Mỗi file có độ dài < 30s có tần số lấy mẫu 16000Hz, bit rate 16bit/mẫu Các file liệu mẫu file âm mono (một kênh) Qua thử nghiệm, thống kê tơi thấy chương trình thực việc phân biệt tiếng nói âm nhạc với tỉ lệ xác tốt với trường hợp tiếng nói âm nhạc riêng biệt Sau kết thu thử nghiệm: Bảng 1: Kết thống kê sở liệu Hình 9: Giao diện nhận dạng phân biệt Tương tự giao diện huấn luyện, giao diện nhận dạng có phần: - Bên phải đồ biểu diễn tín hiệu: khung cửa sổ thứ dạng tín hiệu âm thanh, lượng khoảng ngắn hạn tần suất vượt điểm khơng tín hiệu âm thanh, nhiên khác với giao diện huấn luyện, giao diện nhận dạng cịn có thêm Âm nhạc Tiếng nói Giá trị trung bình LSTER 0.2048 0.14599 Giá trị trung bình HZCRR 0.3942 0.2632 Giá trị trung bình SF 0.3885 0.22 93 Đỗ Thị Loan Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ Bảng 2: Kết thống kê nhận dạng với số lượng đầu vào tiếng nói âm nhạc với K=3 Âm nhạc Tiếng nói Nhận dạng âm nhạc 10838432 (92.36%) 945553 (15.56%) Nhận dạng tiếng nói 897324 (7,64%) 5131722 (84.44%) Tổng 11735756 (100%) 6077275 (100% Bảng 3: Kết thống kê nhận dạng với số lượng đầu vào tiếng nói âm nhạc với K=5 Nhận dạng âm nhạc Nhận dạng tiếng nói Tổng Âm nhạc 10878964 (92.7%) 856792 (7,3%) 11735756 (100%) Tiếng nói 974188 (16.03%) 5103087 (83.97%) 6077275 (100%) KẾT LUẬN Trong nghiên cứu chúng tơi chủ yếu tập trung phân tích đánh giá đặc điểm vật lý, đặc điểm cảm thụ âm hai tín hiệu: âm nhạc tiếng nói: sau thử nghiệm dùng ba đặc trưng HZCRR, LSTER, SF với thuật tốn phân loại K-NN chúng tơi thấy kết thu tốt Trong tương lai, chúng tơi tiếp tục hồn thiện hệ thống cho có hệ thống hồn chỉnh để thực tự động nhận dạng phân biệt tiếng nói với âm nhạc đem áp dụng vào thực 94 112(12)/2: 89 - 95 tế (ứng dụng tự động thu thập thông tin, đánh giá mục cho liệu đa phương tiện TÀI LIỆU THAM KHẢO [1] David Gerhard, (2000), “Audio Signal classification: an overview” , Canadian Artificical Intelligence, 45:4-6, Winter [2] Peltonen, V., (2001) “Computational Auditory Scene Recognition” MSc Thesis, Tampere University [3] Saunders, J., “Real-Time Discrimi-nation of Broadcast Speech/Music”, Proc ICASSP, pp993-996 [4] Srinivasan, S., (1999), Petkovic, D., Poncelcon, D, “Toward robust features for classifying audio in the CueVideo System”, Proc 7th ACM Int, Conf Multimedia, pp 393-400 [5] M.D Plumbley, S.A Abdallah, J.P Bello, M.F Davies, G, Monti , M.B Sandler (2002), “Automatic music transcription and audio source separation”, Cybernetics and System, 33(6):603-627 [6] Lu, L., Jiang, H., and Zhang, H J., (2001), “A robust audio classification and Segmentation method”, in Proc 9th ACM Int Conf Multimedia, pp 203-211 [7] Scheier, E., Slaney, M., (1997), “Construction and Evaluation of a Robust Multifeature Speech/Music Discrimination” Proc ICASSP, pp1331-1334 [8] S Theodoridis, K Kontroumbas (1999), “Pattern Recognition”, Academic Press Đỗ Thị Loan Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 89 - 95 SUMMARY RESEARCH INTO METHOD OF DISCRIMINATION BETWEEN SPEECH AND MUSIC Do Thi Loan*, Luu Thi Lieu, Nguyen Thi Hien College of Information Communication and Technology – TNU Automatic discrimination of speech and music is an important tool in many multimedia applications For the discrimination of speech and music we have used three characteristics: HZCRR (High Zero Crossing Rate Ratio), LSTER (Low Short Time Energy Ratio), SF (Spectrum Flux) and the algorithm for training and discrimination is K Nearest Neighbor The data is musical segments with different kind of music like Vietnamese music, Rock, Pop songs, country music and speech segments of male and female voices for Vietnamese In the article the major objective of our research is to discriminate two audio signals: speech and music We have got results with rather high accuracy: about 88% for speech and 92% for music In the future, we would like to develop the system to classify more classes of audio signal Key words: Discrimination, speech, music, Vietnamese music, Vietnamese Phản biện khoa học: TS Phạm Đức Long – Trường Đại học CNTT & TT – ĐH Thái Nguyên * Tel: 0972998865; Email:dtloan@ictu.edu.vn ... hiệu tiếng nói lớn tín hiệu âm nhạc LỰA CHỌN ĐẶC TRƯNG VÀ PHƯƠNG PHÁP NHẬN DẠNG PHÂN BIỆT TIẾNG NĨI VỚI ÂM NHẠC Cho tới có nhiều đặc tính tín hiệu âm để nhận dạng, phân biệt tiếng nói âm nhạc. .. thụ âm người đặc tính người cảm nhận nhịp điệu, độ cao âm (Pitch), độ ngân, âm sắc,… Cũng nhiều nghiên cứu trước đây, để nhận dạng phân biệt tiếng nói với âm nhạc nói riêng hay nhận dạng phân biệt. .. NGHỆ Bảng 2: Kết thống kê nhận dạng với số lượng đầu vào tiếng nói âm nhạc với K=3 Âm nhạc Tiếng nói Nhận dạng âm nhạc 10838432 (92.36%) 945553 (15.56%) Nhận dạng tiếng nói 897324 (7,64%) 5131722