nói:
Thuận lợi: việc nhập liệu tiếng nói thực hiện dễ dàng hơn các loại dữ liệu khác: đơn giản, nhanh, làm được trong khi vẫn làm việc khác…
Khó khăn: do tính phức tạp của dữ liệu tiếng nói, việc nhận dạng tiếng nói mang độ phức tạp cao hơn so với các hệ thống nhận dạng khác:
Tiếng nói là loại dữ liệu phụ thuộc người nói. Cùng một tiếng, nhưng hai người khác nhau nói khác nhau.
Tiếng nói mang tính liên tục, và do đó, mỗi từ chịu ảnh hưởng (pha trộn) của các từ kế bên trong câu. Bên cạnh đó, sự phát âm cùng một từ cũng thay đổi tuỳ theo ngữđiệu câu nói.
Tiếng nói thay đổi theo tình trạng tâm lý, sinh lý và tình cảm người nói và thời điểm nói. Cùng một từ, một câu, nhưng sáng nói khác, chiều nói khác, tối nói khác; vui nói khác, buồn nói khác; nói với người này khác, nói với người kia khác; khoẻ nói khác, đau nói khác; no nói khác, đói nói khác… Nhiều hệ thống nhận dạng thường gặp thất bại khi chạy Demo vì người điều khiển quá hồi hộp, sợ sệt. Thậm chí lúc tập trung tư tưởng phát âm sẽ khác lúc thư giãn.
Thiết bị ảnh hưởng rất nhiều đối với âm thanh được thu vào hoặc phát ra. Trên thị trường vẫn có các loại nhiều loại Micro, loa khác nhau, giá tiền đôi khi chênh lệch rất nhiều. Các loại Micro không tốt sẽ ảnh hưởng đến tín hiệu thu vào, làm mất thông tin, hay sẽ gây ra nhiễu do dòng điện bị dao động khi đi qua các khớp nối. Thậm chí, dây Micro dài ngắn khác nhau, cấu tạo bằng các chất dẫn khác nhau cũng sẽ ảnh hưởng đến tín hiệu tiếng nói do sóng âm nhận được từ các phương tiện truyền khác nhau. Nói chung, các thiết bị phần cứng như Micro, dây dẫn, card âm thanh …, đều có ảnh hưởng đáng kể đến tín hiệu âm thanh.
Môi trường thu âm cũng có ảnh hưởng đáng kể. Thông thường, tín hiệu tiếng nói khi thu vào phải đưa qua bước tiền xử lý để lọc bỏ các tần số nhiễu. Nhiễu này có thể do tiếng ồn như tiếng máy quạt, máy lạnh, tiếng xe cộ, tiếng nói như tiếng người, tiếng hát, hay thậm chí là tiếng dội lại của tiếng nói đang thu trong phòng kín…