Tiếng nói của con người được phát ra dưới dạng tín hiệu tương tự. Để có thể nhận dạng được tiếng nói của con người, tín hiệu tương tự này phải được xử lý trước đó để có thể phục vụ cho q trình nhận dạng tiếng nói. Một tín hiệu tương tự xa(t) dưới dạng hàm biến đổi liên tục theo thời gian có thể được xử lý bằng cách lấy mẫu tín hiệu x với một khoảng thời gian lấy mẫu T (tức là t = nT), ta có thể xác định một tín hiệu thời gian rời rạc x(n) = xa(nt). Hơn nữa ta có thể xác định tần số lấy mẫu Fs với Fs = 1/T, nghịch đảo của khoảng thời gian lấy mẫu T.
1 2 3 4 5 6 7 8 13 12 11 10 9
4.2. Cơ sơ lý thuyết xử lý và nhận dạng tiếng nói
Nhận dạng tiếng nói là một q trình nhận dạng mẫu, với mục đích là phân lớp thơng tin đầu vào tín hiệu tiếng nói thành một dãy tuẫn tự các mẫu đã được học trước đó và lữu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có thể là từ hoặc các âm vị. Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn, nhờ đó có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói.
4.2.1. Các thành phần cơ bản của một hệ thống nhận dạng tiếng nói
Về bản chất, q trình nhận dạng tiếng nói là q trình biến đổi tín hiệu âm thanh thu được của người nói qua các thiết bị thu âm thành một chuỗi các từ. Kết quả của q trình nhận dạng có thể được ứng dụng trong điều khiển thiết bị, nhập dữ liệu, soạn thảo văn bản bằng lời, quay số điện thoại tự động hoặc đưa tới một q trình xử lý ngơn ngữ ở mức cao hơn.