1. Trang chủ
  2. » Luận Văn - Báo Cáo

Một số đánh giá về hiệu quả nhận dạng tiếng nói dùng kỹ thuật phân tích băng con

6 100 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

Trong báo cáo này, chúng tôi sử dụng phân tích wavelet rời rạc DWT để phân tích tiếng nói thành các băng con và thực hiện nhận dạng tiếng nói đã phân tích. Các kết quả nhận dạng cho thấy các băng con có ảnh hưởng khác nhau tới hiệu quả nhận dạng tiếng nói sạch và tiếng nói có nhiễu. Đặc biệt, một số băng con cho hiệu quả nhận dạng cao hơn tiếng nói gốc không phân tích băng con. Cụ thể với phân tích DWT, băng A1 là ảnh hưởng nhiều nhất đối với tiếng nói sạch còn băng A2 ảnh hưởng nhiều nhất đối với tiếng nói có nhiễu. Các kết quả này cho thấy việc sử dụng phân tích băng con để phân tách ra một số băng tần chọn lọc sẽ cho hiệu quả cao hơn nhận dạng với tiếng nói gốc. Các băng con khác nhau ảnh hưởng khác nhau tới hiệu quả nhận dạng cho thấy trong kỹ thuật nhận dạng tiếng nói dùng phân tích băng con, khi kết hợp kết quả nhận dạng trong các băng con để cho ra kết luận nhận dạng cuối cùng thì các băng con cần phải gán các trọng số khác nhau tương ứng với độ ảnh hưởng lên kết quả nhận dạng. Ở một khía cạnh khác, các kết quả thực nghiệm ở đây cũng cho thấy việc cắt bỏ các thông tin tần số cao ở một mức độ thích hợp sẽ làm tăng hiệu quả nhận dạng tiếng nói. Đây là cơ sở cần thiết để khẳng định việc sử dụng các bộ triệt nhiễu tiếng nói trong khối tiền xử lý của các hệ thống nhận dạng tương ứng với việc cắt bỏ bớt thông tin tần số cao ở một mức độ thích hợp dù loại bỏ một số thông tin quan trọng nhưng vẫn làm tăng kết quả nhận dạng

Tạp chí KHOA HỌC & CƠNG NGHỆ 52(4): 47 - 51 - 2009 MỘT SỐ ĐÁNH GIÁ VỀ HIỆU QUẢ NHẬN DẠNG TIẾNG NĨI DÙNG KỸ THUẬT PHÂN TÍCH BĂNG CON Phùng Trung Nghĩa (Khoa Công nghệ thông tin - ĐH Thái Nguyên) Tóm tắt Trong báo cáo này, chúng tơi sử dụng phân tích wavelet rời rạc DWT để phân tích tiếng nói thành băng thực nhận dạng tiếng nói phân tích Các kết nhận dạng cho thấy băng có ảnh hưởng khác tới hiệu nhận dạng tiếng nói tiếng nói có nhiễu Đặc biệt, số băng cho hiệu nhận dạng cao tiếng nói gốc khơng phân tích băng Cụ thể với phân tích DWT, băng A1 ảnh hưởng nhiều tiếng nói băng A2 ảnh hưởng nhiều tiếng nói có nhiễu Các kết cho thấy việc sử dụng phân tích băng để phân tách số băng tần chọn lọc cho hiệu cao nhận dạng với tiếng nói gốc Các băng khác ảnh hưởng khác tới hiệu nhận dạng cho thấy kỹ thuật nhận dạng tiếng nói dùng phân tích băng con, kết hợp kết nhận dạng băng kết luận nhận dạng cuối băng cần phải gán trọng số khác tương ứng với độ ảnh hưởng lên kết nhận dạng Ở khía cạnh khác, kết thực nghiệm cho thấy việc cắt bỏ thông tin tần số cao mức độ thích hợp làm tăng hiệu nhận dạng tiếng nói Đây sở cần thiết để khẳng định việc sử dụng triệt nhiễu tiếng nói khối tiền xử lý hệ thống nhận dạng tương ứng với việc cắt bỏ bớt thơng tin tần số cao mức độ thích hợp dù loại bỏ số thông tin quan trọng làm tăng kết nhận dạng I Đặt vấn đề Nhiều nghiên cứu gần nhận dạng tiếng nói quan tâm đến phương pháp nâng cao tỉ lệ nhận dạng mơi trường có nhiễu (noise robust speech recognition) Đã có nhiều phương pháp đưa ra, phương pháp sử dụng biến đổi wavelet theo hai cách tiếp cận xây dựng triệt nhiễu wavelet khối tiền xử lý [6, 14, 15] sử dụng đặc trưng wavelet nhạy cảm với nhiễu khối trích đặc trưng [5, 8, 9, 10, 11, 12] phương pháp có nhiều triển vọng Đối với cách tiếp cận dùng khối triệt nhiễu tiền xử lý, ý tưởng triệt nhiễu dùng wavelet loại bỏ hệ số tần số cao (hệ số chi tiết) có mức lượng ngưỡng, nên triệt nhiễu dùng wavelet đồng nghĩa với việc cắt bỏ bớt thông tin tần số cao Đối với cách tiếp cận thứ hai dùng đặc trưng nhạy cảm với nhiễu, đặc trưng wavelet liên tục CWT wavelet gói WPT sử dụng phổ biến Nhược điểm CWT vấn đề tốc độ thực thi khối lượng tính tốn lớn Do hầu hết hệ thống nhận dạng sử dụng wavelet với tiếng nói lấy mẫu với tần số lấy mẫu lớn người ta thường phải giảm tốc độ lấy mẫu tiếng nói xuống KHz để đảm bảo tốc độ thực thi Tuy nhiên, giảm tốc độ lấy mẫu có nghĩa cắt bỏ bớt thông tin tần số cao (giảm tốc độ lấy mẫu từ 16 KHz xuống KHz tương ứng với cắt phổ tần tiếng nói từ KHz xuống KHz) Do đó, hai cách tiếp cận, tiếng nói gốc phải cắt bỏ thơng tin tần số cao khối tiền xử lý trích đặc trưng Theo suy luận logic thơng thường, việc cắt bỏ thông tin tần số cao làm đặc trưng tiếng nói ảnh hưởng tới kết nhận dạng Cũng thời gian gần đây, giới có số tác giả đề xuất phương pháp nhận dạng tiếng nói dùng phân tích băng nhận dạng tiếng nói băng kết hợp kết lại kết nhận dạng cuối Các nghiên cứu thường sử dụng kỹ thuật đặt trọng số cân (equal weighting) cho băng [7] Mặc dù kết thực nghiệm cho thấy kỹ thuật nâng cao hiệu nhận dạng đặc biệt với tiếng nói có nhiễu, kỹ thuật đặt trọng số cân không phản ánh thực tế băng khác ảnh hưởng khác tới hiệu nhận dạngđánh giá hiệu nhận dạng băng độc lập sở để xây dựng phương pháp đặt trọng số phù hợp cho băng Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Tạp chí KHOA HỌC & CƠNG NGHỆ 52(4): 47 - 51 Trong báo cáo này, sử dụng phân tích đa phân giải DWT phân tích tiếng nói thành mức sau tái tạo thành băng tần thấp khác Để đánh giá ảnh hưởng băng tần tới kết nhận dạng, mơ hình âm cho băng tần nhận dạng thử nghiệm sau huấn luyện với tiếng nói gốc Các kết nhận dạng thực nghiệm thu cho thấy tỉ lệ nhận dạng ứng với mơ hình âm băng lớn với tiếng nói sạch, tỉ lệ nhận dạng ứng với mơ hình âm băng lớn với tiếng nói có nhiễu Điều chứng tỏ với phân tích DWT, băng A1 ảnh hưởng nhiều tiếng nói băng A2 ảnh hưởng nhiều tiếng nói có nhiễu Các kết nghiên cứu chứng minh thay sử dụng tồn băng tần A0 tiếng nói, việc loại bỏ thơng tin tần số cao (xảy triệt nhiễu hay giảm tốc độ lấy mẫu) mức khơng khơng làm giảm tỉ lệ nhận dạng mà nâng cao hiệu nhận dạng Các kết thực nghiệm làm sở để xây dựng kỹ thuật đặt trọng số phù hợp phương pháp nhận dạng tiếng nói dùng phân tích băng nghiên cứu II Cơ sở wavelet Trong miền thời gian liên tục, biến đổi wavelet liên tuc CWT tín hiệu x(t) định nghĩa tập hàm wavelet sở  ab (t ) , a tham số tỉ lệ, b tham số dịch  ab (t )   ( t b ) a W x(a, b)  a (1)   x(t )  * ( t b )dt a T  - 2009 2 (3) N0 Trong N0 số lượng mẫu có độ phân giải đủ lớn tỉ lệ nhỏ (tần số lớn nhất) Tỉ lệ wavelet mẹ lấy mẫu tính cách thay đổi khoảng cách mẫu Ta  T / a Hệ số tỉ lệ a  (trường hợp Dyadic SCWT a =2m), tham số dịch cố định số b0 để tránh việc lấy mẫu khơng SCWT định nghĩa sau: [ /T ] + nb0 SCWTf (a,n)=   k= - [  /T (4) với f(k) a* (k  nb0 ) ] + nb0 1  a (k ) | a |  (kTa ), (5) đáp ứng tần số ˆ a ( ) | a | ˆ (  T k a ) T  T (6) Biến đổi wavelet rời rạc DWT wavelet gói WPT thực dựa cấu trúc phânbăng lọc thỏa mãn số ràng buộc Ví dụ với DWT, mức phân rã cho hai nhánh lọc thông cao thông thấp theo sau giảm mẫu lần DWT thực việc đa phân rã lặp lại nhánh thơng thấp, phân rã WPT lặp lại việc phân rã nhánh (thơng cao thơng thấp) Kết phân tích WPT chia vùng tần số biểu diễn tín hiệu thành nhiều băng cho phép khơi phục lại tín hiệu ban đầu từ hệ số wavelet băng (2) CWT tính tốn hệ số tỉ lệ khác đoạn khác tín hiệu Tính tốn hệ số wavelet tỷ lệ dẫn tới khối lượng tính tốn lớn Ta chọn tập tỉ lệ vị trí để giảm phức tạp tính tốn cách dùng phép biến đổi wavelet SCWT (Sampled CWT), DWT (Discrete Wavelet Transform) hay WPT (Wavelet Packet Transform) Trong SCWT, wavelet mẹ cắt từ vùng thời gian liên tục từ -  đến  Wavelet lấy mẫu với khoảng cách mẫu bằng: Hình Lọc tầng DWT cho xấp xỉ chi tiết Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Tạp chí KHOA HỌC & CƠNG NGHỆ 52(4): 47 - 51 - 2009 IV Nhận dạng băng tần tiếng nói liên tục DWT tái tạo hệ thống quay số tự động tiếng nói tiếng Việt Chuẩn bị liệu Hình Phân tích wavelet gói III Phân rã DWT tái tạo băng tần thấp Hình biểu diễn phân tích wavelet mức tín hiệu tiếng nói S Trong đó, Di thành phần chi tiết mức i, Ai thành phần xấp xỉ mức i tiếng nói gốc S Trong nghiên cứu này, thực nghiệm với tiếng nói có tần số lấy mẫu 16 KHz (có độ rộng phổ tần KHz), băng tần thấp tái tạo tương ứng A0 : – 8000 Hz (băng tần gốc không phân rã), A1 : – 4000 Hz (băng tần thấp tái tạo từ phân rã mức 1), , A5 : – 250 Hz (băng tần thấp tái tạo từ phân rã mức 5) Bảng hiển thị băng tần thấp tái tạo tiếng nói Hình Cây phân rã mức Tần thấp Tần cao A1 – 4000 Hz D1 4000 – 8000 Hz A2 – 2000 Hz D2 2000 – 4000 Hz A3 – 1000 Hz D3 1000 – 2000 Hz A4 – 500 Hz D4 500 – 1000 Hz A5 – 250 Hz D5 250 – 500 Hz Bảng Các băng tần thấp Ai tái tạo ứng với mức phân rã Chúng sử dụng wavelet Daubechies để phântiếng nói thực huấn luyện nhận dạng với tiếng nói gốc (A0) tiếng nói tần thấp tái tạo (A1 – A5) Dữ liệu tiếng nói thu từ nam nữ nói đủ số cụm từ liệu, người thu lần tần số lấy mẫu 16 KHz, 16 bit / mẫu Tất giọng nói giọng miền Bắc từ số tỉnh, thành như: Thái Nguyên, Thái Bình, Thanh Hóa, Nghệ An, Tiếng nói thu phòng đóng kín cửa có chất lượng cách âm tốt Tổng số có 99 cụm từ số điện thoại nội khoảng 101 đến 199, 10 cụm từ tên riêng, có tổng cộng có 10x109 = 1090 cụm từ liệu dùng để huấn luyện Đánh giá kết nhận dạng với tiếng nói tiếng nói có nhiễu Gauss trắng nhân tạo Trong nam, nữ (khơng tham gia q trình huấn luyện) người nói đủ 109 cụm từ Tổng cộng số lần nhận dạng thử 2x109 = 218 lần Môi trường xây dựng hệ thống Chúng xây dựng hệ thống nhận dạng MATLAB 7.01 Trong MATLAB 7.01, Toolbox Signal Processing, Wavelet, Statistic HMM hỗ trợ hầu hết hàm cần thiết cho q trình tiền xử lý trích đặc trưng, huấn luyện nhận dạng Tiền xử lý phân khung tiếng nói Tiếng nói trước tham số hoá làm rõ lọc với phương trình sai phân: s(n)  s(n)  as(n 1) với a = 0.97 (7) Sau đó, tiếng nói băng tần phân thành khung 20 ms, 10 ms chồng lấp, sử dụng cửa sổ Hamming 32 ms cho khung Trích đặc trưng Chúng tơi sử dụng phương pháp trích đặc trưng MFCC Số hệ số MFCC 12 cho khung, chung bổ sung thêm đặc trưng log lượng F0 (xác định theo phương pháp AMDF), hệ số đạo hàm bậc nhất, bậc hai tạo thành tập vector đặc trưng 42 đặc tính dùng làm đầu vào cho mơ hình HMM hệ thống nhận dạng Mơ hình HMM Viết th luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Tạp chí KHOA HỌC & CƠNG NGHỆ 52(4): 47 - 51 Hệ thống nhận dạng sử dụng mơ hình HMM trái phải trạng thái, để phục vụ nhận dạng liên tục, trạng thái sil cho lối vào, sử dụng để kết hợp mô hình HMM với Hàm phân bố xác suất quan sát mơ hình pha trộn Gaussian V Kết nhận dạng băng Kết nhận dạng với toàn băng băng cho bảng Chúng ta thấy hai trường hợp tiếng nói có nhiễu Gauss trắng SNR = 10 dB băng A1, A2 cho kết nhận dạng tốt toàn băng A0 (với tiếng nói có nhiễu chí băng A3 cho kết nhận dạng tốt toàn băng A0) Các băng tần A4 A5 cho kết nhận dạng thấp Với tiếng nói kết nhận dạng băng A1 (0 – 4000 Hz) cao nhất, với tiếng nói có nhiễu, kết nhận dạng băng A2 (0 – 2000 Hz) cho kết cao Băng Clean Speech Noisy Speech SNR=10dB A0 78.44 (171/218) 38.07 (83/218) A1 82.56 (180/218) 40.36 (88/218) A2 80.27 (175/218) 50.00 (109/218) A3 59.63 (130/218) 44.49 (97/218) A4 30.73 (67/218) 27.52 (60/218) A5 22.93 (50/218) 18.34 (40/218) Bảng Kết nhận dạng tiếng nói toàn băng băng VI Kết luận Qua kết thực nghiệm chứng tỏ việc loại bỏ bớt thành phần tần số cao (thông qua thao tác lọc, triệt nhiễu hay giảm tốc độ lấy mẫu, ) không làm giảm kết nhận dạng mà mức độ làm tăng kết nhận dạng so với tiếng nói gốc Đặc biệt với tiếng nói có nhiễu, nhận dạng trực tiếp với tiếng nói gốc cho kết thấp so với tín hiệu băng lọc bỏ phần cao tần - 2009 Các kết thực nghiệm cho thấy sử dụng kỹ thuật nhận dạng dùng phân tích băng con, băng khác cần phải gán trọng số khác chúng ảnh hưởng khác tới hiệu nhận dạng Trong nghiên cứu này, chưa tập trung xây dựng hệ thống nhận dạng hoàn chỉnh mơi trường có nhiễu Trong nghiên cứu tiếp theo, chúng tơi hồn thiện mặt phương pháp xây dựng thực nghiệm hệ thống nhận dạng tiếng Việt liên tục mơi trường có nhiễu Tài liệu tham khảo [1] Lê Tiến Thường, Hồng Đình Chiến, Vietnamese Speech Recognition Applied to Robot Communications, Au Journal of Technology, Published by Assumption University (ABAC) Hua Mak, Bangkok, Thailand, 2004 [2] Phùng Trung Nghĩa, Nhận dạng tiếng Việt sử dụng biến đổi Wavelet mơ hình Markov ẩn, Luận văn thạc sỹ, Đại học Quốc Gia Hà Nội, 2006 [3] Q.C.Nguyen, Eric Castelli, Ngoc-Yen Pham , Tone Recognition for Vietnamese, Euro-Speech 2003, Geneva [4] Thang Tat Vu, Dung Tien Nguyen, Mai Chi Luong, John-Paul Hosom, Vietnamese Large Vocabulary Continuous Speech Recognition, EuroSpeech05 International Conference, 2005 [5] Beng T TAN, Minyue Fu, Andrew Spray, Phillip Dermody, The use of wavelet transforms in phoneme recognition, 1994 [6] Donoho, D L, “Denoising via soft thresholding'', IEEE Trans Information Theory, 1995 [7] Long Yan, Gang Liu, and Jun Guo, A Study on Robustness of Large Vocabulary Mandarin Chinese Continuous Speech Recognition System Based on Wavelet Analysis, ICAPR 2005, NCS 3686, pp 497 – 504, 2005 [8] M Krishnan, C Neophytou, and G Prescott, Wavelet transform speech recognition using vector quantization, dynamic time wraping and articicial neural networks, 1994 [9] O Farooq, S Datta, Phoneme recognition using wavelet based features, Information Sciences 150 5– 15, 2003 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 52(4): 47 - 51 Tạp chí KHOA HỌC & CƠNG NGHỆ - 2009 [10] R Favero and R King, “Wavelet Parameterization for Speech Recognition” Int Conf Signal Processing Applications and Technology, Santa Clara, Vo12 pp 1444-1449, 1993 [11] R Favero and R King, Wavelet Parameterization for Speech Recognition,Variations in Translation and Scale Parameters International Symposium on Speech, Image Processing and Neural Networks, Hong Kong, 13-16 April 1994 [12] Robert Modic, Borge Lindberg, Bojan Petek, Comparative Wavelet and MFCC Speech Recognition Experiments on the Slovenian and English SpeechDat2, NOLISP-2003 [13] Steve Young, HTK Speech Recognition Toolkit, Cambridge University Engineering Department, http://htk.eng.cam.ac.uk/ [14] S.F Boll, “Suppression of Acoustic Noise in Speech Using Spectral Subtraction”, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol 27, April 1979, pp 113-120 [15] Y Ephraim and D Malah, “Speech enhancement using a minimum mean square error log-spectral amplitude estimator” IEEE Trans on ASSP, 1985, pp 443-445 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 52(4): - 12 Tạp chí KHOA HỌC & CÔNG NGHỆ - 2009 Summary SOME EVALUATIONS OF SPEECH RECOGNITION PERFORMANCE USING SUBBAND CODING In this paper, we use the Discrete Wavelet Transform to analyze input speech into subbands and recognize the analized speech The recognition results show that each subband influence differently to the clean and noisy speech recognition performance Esspecially, some subbands used as input for recognition giving the higher performance than using original speech as the input of recognition system The A1 band influences much to clean speech recognition and the A2 influences much to noisy speech recognition The experimental results therefore show that using subband coding is a good speech recognition technique Moreover, the influence of each subband is different making a disicion that we must build a weighting technique for subband speech recognition In addition, the experimental results show that removing the high frequency of original speech with suitable level will get the better recognition performance This is an importance scientific base of speech denoise methods which removes the higher frequency in noisy input speech Keyword: Speech Recognition, Sub-band Speech Recognition, Wavelet, DWT Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 ... này, sử dụng phân tích đa phân giải DWT phân tích tiếng nói thành mức sau tái tạo thành băng tần thấp khác Để đánh giá ảnh hưởng băng tần tới kết nhận dạng, mô hình âm cho băng tần nhận dạng thử... dụng kỹ thuật nhận dạng dùng phân tích băng con, băng khác cần phải gán trọng số khác chúng ảnh hưởng khác tới hiệu nhận dạng Trong nghiên cứu này, chưa tập trung xây dựng hệ thống nhận dạng. .. Nhận dạng băng tần tiếng nói liên tục DWT tái tạo hệ thống quay số tự động tiếng nói tiếng Việt Chuẩn bị liệu Hình Phân tích wavelet gói III Phân rã DWT tái tạo băng tần thấp Hình biểu diễn phân

Ngày đăng: 17/10/2018, 17:04

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w