Đây là một kỹ thuật thông dụng để khử nhiễu trong các hệ thống nhận dạng, được dùng kết hợp trong quá trình tính toán các đặc tính phổ của tiếng nói. Phương pháp này dựa trên giả thiết là các đặc tính tần số của môi trường là thường xuyên cố định hoặc biến đổi chậm. Các tham số cepstral của một phát âm được trừ đi giá trị trung bình của các tham số trong một khoảng thời gian nào đó và làm cho các giá trị này ít bị ảnh hưởng bởi môi trường:
1 1 ˆ ( ) ( ) ( ) T t O O O t T (2.9) trong đó T là độ dài của vùng lấy giá trị trung bình, thường là độ dài của cả phát âm. Kỹ thuật CMS có ưu điểm là đơn giản, thời gian tính toán nhanh, dễ áp dụng, khi áp dụng kỹ thuật khử nhiễu này vào nhận dạng tiếng nói, cần lưu ý đến tốc độ xử lí và bảo tồn các đặc trưng âm học của phụ âm, đặc biệt là các phụ âm vô thanh. Để đảm bảo thực hiện được trong thời gian thực, hiện nay, người ta thường áp dụng mô hình tham số thích nghi với nhiễu. Cụ thể như sau: Khi huấn luyện tham số, người ta lấy một mẫu sạch, không bị nhiễu, để huấn luyện, sau đó, người ta lấy các mẫu sạch này trộn với các loại nhiễu sinh bởi các mô hình toán học khác nhau và tham số mô hình sẽ được biến đổi bởi mẫu nhiễu nhờ các công cụ mô hình. Do đó, trong giai đoạn nhận dạng, khi tín hiệu thực được đưa vào hệ thống, người ta sẽ tính thẳng các đặc trưng và quyết định từ chính tín hiệu chứ không cần lọc.