Rút trích vector đặc trưng

Một phần của tài liệu Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn (Trang 25)

Ngày nay, việc xử lý tín hiệu tiếng nói hầu hết được thực hiện trên miền số. Tín hiệu số được thu bằng cách lấy mẫu theo một tần số nhất định, đó là việc đo tín hiệu theo một chu kỳ thời gian. Theo lý thuyết, bất cứ một tín hiệu có băng tần giới hạn nào cũng có thể tái tạo lại một cách hoàn chỉnh nếu như tần số lấy mẫu FS ít nhất là gấp đôi tần số tối đa của tín hiệu (định lý Nyquist). Chất lượng của tín hiệu

được lấy mẫu còn phụ thuộc vào biên độ lấy mẫu – phụ thuộc vào số bit được dùng. Đối với những ứng dụng ASR, biểu diễn tín hiệu ở miền tần số thì tối ưu hơn – một biểu diễn gọn hơn hữu dụng hơn là cần thiết. Rút trích vector đặc trưng là việc xử lý biến đổi tín hiệu âm thanh thành một chuỗi những vector đặc trưng. Một số vector đặc trưng phổ biến như MFCC, LPC,…

Để tham số hóa dạng sóng của tín hiệu, tín hiệu được chia thành chuỗi các khung gối lên nhau theo thời gian, mỗi khung thường dài khoảng 25ms, khoảng thời gian thích hợp để cho việc xử lý tĩnh hơn (hình 1.8). Để khử nhiễu và làm rõ tín hiệu, các khung trước khi được xử lý được nhân với hàm cửa sổ, thường dùng là cửa sổ Hamming hay Hanning. Sau khi áp hàm cửa sổ cạnh của khung sẽ trở nên mịn hơn, mặt khác nó còn giúp cho thành phần có tần số cao của tín hiệu xuất hiện trong phổ.

Hình 1.8: Tổng quát quá trình rút trích vector đặc trưng

Hình 1.9: Các kỹ thuật nhận dạng tiếng nói và xu hướng phát triển

Một phần của tài liệu Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn (Trang 25)

Tải bản đầy đủ (PDF)

(120 trang)