Lọc qua bộ lọc Mel-scal e:

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính (Trang 36 - 37)

CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NÓI

2.3. RÚT TRÍCH ĐẶC TRƯNG TIẾNG NĨI

2.3.1.4. Lọc qua bộ lọc Mel-scal e:

Các nghiên cứu về hệ thống thính giác của con người cho thấy, tai người có cảm nhận đối với độ lớn các tần số khơng theo thang tuyến tính. Các đặc trưng phổ tần số của tiếng nói được tai người tiếp nhận như ngõ ra của một dãy các bộ lọc. Tần số trung tâm của các bộ lọc này khơng phân bố tuyến tính dọc theo trục tần số. Thành phần phổ dưới 1 kHz thường được tập trung nhiều bộ lọc hơn vì nó chứa nhiều thơng tin về âm thanh hơn. Ở tần số thấp các bộ lọc băng hẹp được sử dụng để tăng độ phân giải tần số để có được tần số cơ bản và họa tần vốn ổn định, còn ở tần số cao các bộ lọc thông băng rộng được sử dụng để thu được các thành phần tần số cao vốn biến động rất nhanh.

Với nỗ lực nhằm mơ tả chính xác sự tiếp nhận tần số của tai người, một thang tần số được xây dựng - thang tần số Mel dựa trên cơ sở thực nghiệm cảm nhận nghe của người. Tần số 1 kHz được chọn là 1000 Mel. Mối quan hệ giữa thang

tần số thực (vật lý) và thang tần số Mel (sinh lý) được cho bởi công thức:

𝐹𝑀𝑒𝑙 = 2595log10(1 +𝐹𝐻𝑧

700) (2.67)

với FMel là tần số sinh lý, đơn vị Mel; FHz là đơn vị tần số thực, đơn vị Hz.

Hình 2.18. Đồ thị biểu diễn mối quan hệ giữa Mel và Hz

Trên hình 2.18 cho thấy, với những tần số nhỏ hơn 1 kHz, thì quan hệ giữa thang mel và tần số thực là gần tuyến tính. Cịn các tần số trên 1 kHz thì quan hệ này là logarithm. Như vậy thay vì xây dựng các bộ lọc trên thang tần số thực ta có thể xây dựng các bộ lọc này với tần số trung tâm cách đều tuyến tính trên thang Mel.

Tần số trung tâm của bộ lọc thứ m được xác định bởi:

fm = fm-1 + Δfm (2.68) Trong đó: fm là tần số trung tâm của bộ lọc thứ m

fm-1 là tần số trung tâm của bộ lọc thứ m -1 Δfm là băng thông của bộ lọc thứ m

Δfm được xác định: Với khoảng tần số dưới 1 kHz, thì fm được chọn sao cho

có khoảng 10 bộ lọc phân bố cách đều trong khoảng này. Với khoảng tần số trên 1kHz, fm thường được tính bởi : fm = 1.2* fm -1.

Kết quả sau khi cho phổ tín hiệu Xt(k) qua bộ lọc ta thu được Yt(m).

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính (Trang 36 - 37)

Tải bản đầy đủ (PDF)

(111 trang)