TIỀN XỬ LÝ TÍN HIỆU – TRÍCH ĐẶC TRƢNG –XÂY DỰNG MÔ HÌNH HMM
4.2. Rút trích đặc trƣng 1.Giới thiệu
4.2.1.Giới thiệu
Tín hiệu tiếng nói thu đƣợc từ micro vốn có kích thƣớc lớn. Máy tính cá nhân không có đủ tốc độ và bộ nhớ cho quá trình nhận dạng lƣợng dữ liệu lớn đó. Để giải quyết vấn đề này, ngƣời ta chỉ trích ra và xử lý những thông tin cần thiếtnhất từ dãy tín hiệu thu đƣợc. Các tín hiệu trích ra đƣợc gọi là đặc trƣng của dãy tín hiệu gốc. Đặc trƣng này phải thoả những điều kiện sau:
Nhỏ hơn rất nhiều so với tín hiệu gốc (để không chiếm bộ nhớ, giảm thời gian khi xử lý,…).
Vẫn giữa lại những đặc điểm quan trọng nhất của dãy tín hiệu ban đầu.
Có nhiều dạng đặc trƣng, có thể chia thành 3 nhóm sau:
™Nhóm 1:
Đặc trƣng trích ra nhờ mô phỏng theo mô hình bộ máy phát âm của con ngƣời. Các đặc trƣng ở nhóm này sử dụng phƣong pháp dự báo tuyến tính để rút đặt trƣng. Các phƣơng pháp thƣờng dùng là: Linear Predictive Coding –
LPC, Perceptional Linear Prediction (PLP),…
™Nhóm 2:
Đặc trƣng trích ra nhờ dựa trên khả năng cảm nhận âm của thính giác con ngƣời. Các đặc trƣng ở nhóm này sử dụng phƣơng pháp phân tích cepstral1 và phổ âm (spectral) (còn gọi là các phƣơng pháp dãy bộ lọc). Phƣơng pháp thƣờng sử dụng là Mel Frequency Cepstral Coding (MFCC).
™Nhóm 3:
Một số các đặc trƣng âm học khác về cao độ, ngữ điệu, dấu nhấn: thích hợp cho nhận dạng ngôn ngữ đang nói, thanh điệu, tâm trạng ngƣời nói, ….
Các đặc trƣng ở nhóm 3 ít đƣợc dùng trong việc nhận dạng âm tiết . Ngƣời ta dùng chủ yếu các đặc trƣng ở nhóm 1 và nhóm 2.
4.2.2.Một số phƣơng pháp trích đặc trƣng