Các nghiên cứu về hệ thống thính giác của con người cho thấy, tai người có cảm nhận đối với độ lớn các tần số không theo thang tuyến tính. Các đặc trưng phổ tần số của tiếng nói được tai người tiếp nhận như ngõ ra của một dãy các bộ lọc. Tần số trung tâm của các bộ lọc này không phân bố tuyến tính dọc theo trục tần số. Thành phần phổ dưới 1 kHz thường được tập trung nhiều bộ lọc hơn vì nó chứa nhiều thông tin về âm thanh hơn. Ở tần số thấp các bộ lọc băng hẹp được sử dụng để tăng độ phân giải tần số để có được tần số cơ bản và họa tần vốn ổn định, còn ở tần số cao các bộ lọc thông băng rộng được sử dụng để thu được các thành phần tần số cao vốn biến động rất nhanh.
Với nỗ lực nhằm mô tả chính xác sự tiếp nhận tần số của tai người, một thang tần số được xây dựng - thang tần số Mel dựa trên cơ sở thực nghiệm cảm nhận nghe của người. Tần số 1 kHz được chọn là 1000 Mel. Mối quan hệ giữa thang
tần số thực (vật lý) và thang tần số Mel (sinh lý) được cho bởi công thức:
𝐹𝑀𝑒𝑙 = 2595log10(1 +𝐹𝐻𝑧
700) (2.67) với FMel là tần số sinh lý, đơn vị Mel; FHz là đơn vị tần số thực, đơn vị Hz.
Hình 2.18. Đồ thị biểu diễn mối quan hệ giữa Mel và Hz
Trên hình 2.18 cho thấy, với những tần số nhỏ hơn 1 kHz, thì quan hệ giữa thang mel và tần số thực là gần tuyến tính. Còn các tần số trên 1 kHz thì quan hệ này là logarithm. Như vậy thay vì xây dựng các bộ lọc trên thang tần số thực ta có thể xây dựng các bộ lọc này với tần số trung tâm cách đều tuyến tính trên thang Mel.
Tần số trung tâm của bộ lọc thứ m được xác định bởi:
fm = fm-1 + Δfm (2.68) Trong đó: fm là tần số trung tâm của bộ lọc thứ m
fm-1 là tần số trung tâm của bộ lọc thứ m -1 Δfm là băng thông của bộ lọc thứ m
Δfm được xác định: Với khoảng tần số dưới 1 kHz, thì fm được chọn sao cho có khoảng 10 bộ lọc phân bố cách đều trong khoảng này. Với khoảng tần số trên 1kHz, fm thường được tính bởi : fm = 1.2* fm -1.
Kết quả sau khi cho phổ tín hiệu Xt(k) qua bộ lọc ta thu được Yt(m).