.8 Hình minh họa về quá trình biến đổi Fourier

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt bằng phương pháp học sâu (Trang 55 - 56)

3.2.1.5 Chuyển đổi sang thang tần số Mel

Để mơ tả chính xác sự tiếp nhận tần số của hệ thống thính giác, người ta xây dựng một thang khác - thang Mel.

Việc chuyển đổi tần số sang miền tần số Mel làm nhẵn phổ và làm nổi lên các tần số cảm thụ có nghĩa. Biến đổi Fourier lên tín hiệu qua bộ lọc thơng dải để làm đơn giản phổ mà không làm mất dữ liệu.

56

Điều này được thực hiện bằng các tập hợp các thành phần phổ thành một dải tần số. Phổ được làm đơn giản hoá do sử dụng một dàn bộ lọc để tách phổ thành các kênh. Các bộ lọc được đặt cách đều lên nhau trên thang Mel và lấy logarit trên thang tần số, các kênh có tần số thấp là khơng gian tuyến tính trong khi các kênh có tần số cao là khơng gian logarit [15].

Nghiên cứu của các nhà khoa học cho thấy rằng con người chúng ta không cảm nhận được sự thay đổi của tần số trên thang đo tuyến tính. Và con người chúng ta cảm nhận được sự khác biệt ở tần số thấp hơn tốt hơn so với tần số cao [15].

Ví dụ như chúng ta có thể dễ dàng thấy sự khác biệt giữa 500 Hz và 1000 Hz nhưng sẽ khó có thể chỉ ra sự khác biệt nếu tần số nằm giữa 10 000Hz và 10 500 Hz, mặc dù khoảng cách giữa hai cặp giá trị trên là như nhau.

Năm 1973, Stevens, Volkmann, và Newmann đã đề xuất một thang đo cảm nhận của các nốt được người nghe đánh giá là bằng nhau về khoảng cách với nhau [14]. Thang đo được đề xuất được gọi là thang đo Mel.

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt bằng phương pháp học sâu (Trang 55 - 56)