Phân ñoạn thành các frame

các frame trong trường hợp M = (1/3)N. Frame thứ nhất gồm N mẫu tiếng nói ñầu tiên. Frame thứ hai bắt ñầu sau frame thứ nhất M mẫu và chồng lấp lên frame thứ

nhất (N - M) mẫu. Tương tự, frame thứ ba bắt ñầu sau frame thứ nhất 2M mẫu (hay sau frame thứ hai M mẫu) và chồng lấp lên frame thứ nhất (N – 2M) mẫu. Tiến trình này tiếp tục cho ñến khi các mẫu tiếng nói ñều ñã thuộc về một hay nhiều frame. Ta dễ dàng thấy rằng nếu M N thì các frame kề nhau sẽ có sự chồng lấp (như hình 2.14), dẫn ñến kết quả là các ước lượng phổ LPC có tương quan với nhau từ frame này sang frame kia; nếu M << N thì ước lượng phổ từ frame này sang frame khác ñược hoàn toàn trơn. Ngược lại, nếu M > N thì sẽ không có sự chồng lấp giữa các frame kề nhau, dẫn ñến một số mẫu tiếng nói bị mất (tức là không xuất hiện trong bất kỳ frame nào) và sự tương quan giữa các ước lượng phổ của các frame liên tiếp nhau sẽ chứa một phần nhiễu mà biên ñộ của nó tăng lên khi M tăng (tức là khi càng có nhiều mẫu tiếng nói bị bỏ qua, không nằm trong bất cứ frame nào phân tích nào). Đó là ñiều không thể chấp nhận ñược trong phân tich LPC cho nhận dạng tiếng nói. Nếu ta ký hiệu frame thứ 1 là x1(n) và giả sử có tất cả L frame trong tín hiệu tiếng nói thì:

xl(n) = ~s(Ml n),n = 0,1,..N-1, l = 0,1,..,L-1

Hình 2.14: Phânñoạn tiếng nói thành các frame chồng lấp

Các giá trị thông dụng cho N và M là 300 và 100 tương ứng khi tốc ñộ lấy mẫu tín hiệu là 6.67 kHz.

Đặt trọng số cho các hệ số cepstral

Phương pháp so khớp biên ñộ