Mục tiêu của trình trích chọn đặc trưng là tham số hoá tín hiệu tiếng nói thành chuỗi vector đặc trưng, chứa thông tin liên quan đến âm thanh của câu nói. Đối với bất kì hệ thống nhận dạng tiếng nói nào, các đặc trưng ngữ âm cũng phải có các tính chất sau:
Có khả năng phân biệt tốt để phân biệt các tiếng nói có phát âm giống nhau. Cho phép xây dựng các mô hình thống kê mà không đòi hỏi quá nhiều dữ liệu huấn luyện.
Có những tính chất thống kê mang tính bất biến đối với các giọng nói khác nhau, cũng như môi trường thu âm.
Dĩ nhiên không có một đặc trưng đơn lẻ nào thoả mãn tất cả các yêu cầu trên. Do đó sử dụng một tập hợp các đặc trưng là một giải pháp. Các đặc trưng này thông thường là kết quả của việc nghiên cứu phân tích tiếng nói, mã hoá tiếng nói và ngữ âm.
Trong các hệ thống nhận dạng tiếng nói, tín hiệu tiếng nói thường được lấy mẫu ở tốc độ từ 6kHz đến 20kHz sau đó qua bước xử lí để sinh ra chuỗi vector chứa các giá trị, được gọi một cách tổng quát là tham số. Mỗi vector lưu khoảng từ 10 đến 40 tham số và được tính sau mỗi 10 tới 20 mili giây. Giá trị của các tham số trong chuỗi vector này dùng để ước lượng xác suất cho các phần tín hiệu tiếng nói hay âm vị. Hiện nay, các trình trích chọn đặc trưng trong các hệ thống nhận dạng tiếng nói thường dùng:
Đặc trưng phổ ngắn (Short-Time Spectral Features) dựa trên phép biến đổi
Fourier rời rạc hoặc mã hoá dự báo tuyến tính, áp dụng trên những đoạn tiếng nói nhỏ để rút ra các đặc trưng phổ.
Đặc trưng phổ có tần số biến đổi (Frequency-Warped Spectral Features) dựa
trên tỉ lệ các tần số biến đổi không đồng nhất để trích chọn ra các tần số Mel (MFCC).
Chi tiết về phép trích chọn đặc trưng được trình bày trong [15].