Do tín hiệu tiếng nói có thể coi là ổn định trong một khoảng thời gian ngắn cỡ khoảng vài chục ms, nên khi tiến hành các phép phân tích biến đổi trên tín hiệu
tiếng nói người ta thường chia tín hiệu tiếng nói thành các đoạn nhỏ cỡ 10-30ms, công việc đó được gọi là phân khung tín hiệu (Frame Blocking).
Trong bước này tín hiệu đã được hiệu chỉnh s~( )n được phân thành các khung (frame), mỗi khung có N mẫu. Hai khung kề nhau lệch nhau M mẫu. Khung đâu tiên chứa N mẫu, khung thứ hai bắt đầu chậm hơn khung thứ nhất M mẫu, và chờm lên khung thứ nhất N – M mẫu. Tương tự, khung thứ ba chậm hơn khung thứ nhất 2M mẫu (chậm hơn khung thứ hai M mẫu) và chờm lên khung thứ nhất N – 2M mẫu … Quá trình này tiếp tục cho đến khi tất cả các mẫu tiếng nói cần phân tích thuộc vệ một hoặc nhiều khung.
Hình 3.1: Trích đặc trưng của tiếng nói
Dễ thấy, nếu M ≤ N thì các khung kề nhau sẽ chờm lên nhau, kết quả là việc đánh giá phổ sẽ liên quan từ khung này đến khung kia, nếu M << N thì việc đánh giá phổ từ khung này đến khung kia sẽ rất trơn.
Ngược lại nếu M ≥ N thì các khung kề nhau sẽ không chờm lên nhau, do đó một vài tín hiệu sẽ bị mất hoàn toàn (nghĩa là không xuất hiện trong bất kỳ khung
nào), phổ thu được khi đánh giá các khung kề nhau sẽ chứa một phần nhiễu. Biên độ nhiễu thành phần nhiễu này tăng lên khi M tăng (nghĩa là có càng nhiều mẫu bị bỏ qua không phân tích). Điều này là không thể chấp nhận được đối với các hệ thống nhận dạng thực tế. Nếu ta kí hiệu khung thứ k là xk(n), và có tất cả K khung thì: ) . ( ) (n s~ M k n xk = + n = 0, 1, 2, … N-1 k = 0, 1, 2 … K-1