Thị biểu diễn mối quan hệ giữa Mel và Hz

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính (Trang 37 - 39)

Trên hình 2.18 cho thấy, với những tần số nhỏ hơn 1 kHz, thì quan hệ giữa thang mel và tần số thực là gần tuyến tính. Cịn các tần số trên 1 kHz thì quan hệ này là logarithm. Như vậy thay vì xây dựng các bộ lọc trên thang tần số thực ta có thể xây dựng các bộ lọc này với tần số trung tâm cách đều tuyến tính trên thang Mel.

Tần số trung tâm của bộ lọc thứ m được xác định bởi:

fm = fm-1 + Δfm (2.68) Trong đó: fm là tần số trung tâm của bộ lọc thứ m

fm-1 là tần số trung tâm của bộ lọc thứ m -1 Δfm là băng thông của bộ lọc thứ m

Δfm được xác định: Với khoảng tần số dưới 1 kHz, thì fm được chọn sao cho

có khoảng 10 bộ lọc phân bố cách đều trong khoảng này. Với khoảng tần số trên 1kHz, fm thường được tính bởi : fm = 1.2* fm -1.

Kết quả sau khi cho phổ tín hiệu Xt(k) qua bộ lọc ta thu được Yt(m).

2.3.1.5. Tính log năng lượng phổ:

Sau khi qua bộ lọc Mel, phổ tín hiệu Yt(m) sẽ được tính Log10 theo:

2.3.1.6. Biến đổi Cosine rời rạc:

Bước cuối cùng để thu được các hệ số MFCC là lấy biến đổi Cosine rời rạc của kết quả cho bởi (2.65):

𝑦𝑡(𝑚)(𝑘) = ∑𝑀 log{|𝑌𝑡(𝑚)|2}cos(𝑘(𝑚 −12)𝑀𝜋)

𝑚=1 (2.70)

Thông thường số điểm rời rạc k của biến đổi ngược này được chọn 1 ≤ k ≤ 12. Các hệ số MFCC chính là số điểm rời rạc này, ta có thể có 1-12 hệ số MFCC.

2.3.2. Phương pháp mã hóa dự báo tuyến tính LPC (Linear Predictive Coding) Coding)

Ý tưởng cơ bản của phương pháp mã hóa dự báo tuyến tính (LPC) là tại thời điểm n, mẫu tiếng nói s(n) có thể được xấp xỉ bởi một tổ hợp tuyến tính của p mẫu trước đó:

s(n) ≈ a1s(n-1) + a2s(n-2) + … + aps(n-p) (2.71)

Trong đó giả sử a1, a2, ... , ap là hằng số trên khung dữ liệu (frame) được phân tích. Chúng ta chuyển quan hệ trên thành dạng đẳng thức bằng cách thêm vào số hạng Gu(n) gọi là nguồn kích thích:

𝑠(𝑛) = ∑𝑝𝑖=1𝑎𝑖𝑠(𝑛 − 𝑖) + 𝐺𝑢(𝑛) (2.72) Trong đó u(n) là nguồn kích thích được chuyển hóa và G gọi là độ lợi của nó. Thực hiện biến đổi z ở hai vế của phương trình trên, ta có:

𝑆(𝑧) = ∑𝑝𝑖=0𝑎𝑖𝑧−𝑖𝑆(𝑧) + 𝐺𝑈(𝑧) (2.73) dẫn đến hàm truyền là: 𝐻(𝑧) = 𝐺𝑈(𝑧)𝑆(𝑧) = 1−∑ 1 𝑎 𝑖𝑧−𝑖 𝑝 𝑖=1 =𝐴(𝑧)1 (2.74)

Ký hiệu š (n) là dự báo tuyến tính của s(n):

𝑠~ = ∑𝑝𝑘=1𝑎𝑘𝑠(𝑛 − 𝑘)

Khi đó thiết lập lỗi dự báo e(n) được định nghĩa là:

𝑒(𝑛) = 𝑠(𝑛) − 𝑠~(𝑛) = 𝑠(𝑛) − ∑𝑝𝑘=1𝑎𝑘𝑠(𝑛 − 𝑘) = 𝐺. 𝑢(𝑛) (2.75) Để tìm tập các hệ số ak, k = 1, 2, ..., p trên khung được phân tích, cách tiếp cận cơ bản là ta cực tiểu hóa sai số bình phương trung bình. Khi đó sẽ dẫn đến việc

ta phải giải một hệ phương trình với p ẩn số. Có nhiều phương pháp để giải hệ phương trình đó, nhưng trong thực tế, phương pháp thường được dùng là phương pháp phân tích tự tương quan.

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính (Trang 37 - 39)

Tải bản đầy đủ (PDF)

(111 trang)