Sau bước làm rõ tín hiệu, ~s(n)được chia thành các frame, mỗi frame gồm N m u, kho ng cách gi a các frame là M m u. Hình 2.14 minh h a cách phân thành
các frame trong trường hợp M = (1/3)N. Frame thứ nhất gồm N mẫu tiếng nói đầu tiên. Frame thứ hai bắt đầu sau frame thứ nhất M mẫu và chồng lấp lên frame thứ
nhất (N - M) mẫu. Tương tự, frame thứ ba bắt đầu sau frame thứ nhất 2M mẫu (hay sau frame thứ hai M mẫu) và chồng lấp lên frame thứ nhất (N – 2M) mẫu. Tiến trình này tiếp tục cho đến khi các mẫu tiếng nói đều đã thuộc về một hay nhiều frame. Ta dễ dàng thấy rằng nếu M N thì các frame kề nhau sẽ có sự chồng lấp (như hình 2.14), dẫn đến kết quả là các ước lượng phổ LPC có tương quan với nhau từ frame này sang frame kia; nếu M << N thì ước lượng phổ từ frame này sang frame khác được hoàn toàn trơn. Ngược lại, nếu M > N thì sẽ không có sự chồng lấp giữa các frame kề nhau, dẫn đến một số mẫu tiếng nói bị mất (tức là không xuất hiện trong bất kỳ frame nào) và sự tương quan giữa các ước lượng phổ của các frame liên tiếp nhau sẽ chứa một phần nhiễu mà biên độ của nó tăng lên khi M tăng (tức là khi càng có nhiều mẫu tiếng nói bị bỏ qua, không nằm trong bất cứ frame nào phân tích nào). Đó là điều không thể chấp nhận được trong phân tich LPC cho nhận dạng tiếng nói. Nếu ta ký hiệu frame thứ 1 là x1(n) và giả sử có tất cả L frame trong tín hiệu tiếng nói thì:
xl(n) = ~s(Ml n),n = 0,1,..N-1, l = 0,1,..,L-1
Hình 2.14: Phânđoạn tiếng nói thành các frame chồng lấp
Các giá trị thông dụng cho N và M là 300 và 100 tương ứng khi tốc độ lấy mẫu tín hiệu là 6.67 kHz.