Mơ hình thời gian động [14]

Một phần của tài liệu Xử lý âm thanh và hình ảnh (Trang 50)

1.5.1.1 Tng quan

Nhận dạng tiếng nĩi tựđộng (Automatic speech recognition-ASR) là một lãnh vực nghiên cứu quan trọng và cĩ nhiều ứng dụng trên thực tế, dựa trên việc lưu trữ một hay nhiều mẫu âm thanh (template) ứng với từng từ trong bảng từ vựng nhận dạng. Quá trình nhận dạng thực hiện việc so trùng tiếng nĩi nhận được với các mẫu lưu trữ. Các mẫu cĩ khoảng cách đo lường thấp nhất so với mẫu tiếng nĩi nhận được chính là từđược nhận dạng. Giải thuật dùng để tìm được sự tương thích tốt nhất là dựa trên lập trình động (Dynamic Programming - DP), và một trong các giải thuật là giải thuật mơ hình thời gian động (Dynamic Time Warping-DTW).

Để cĩ thể nắm bắt được kiến thức về DTW một cách nhanh chĩng, cĩ hai khái niệm cần làm rõ

Điểm đặc trưng: là thơng tin của từng tín hiệu được biểu diễn dưới dạng nào đĩ. → Sai biệt: dạng đo lường nào đĩ được dùng để tính tốn được sự tương thích, cĩ hai

dạng:

1. Cục bộ: độ tính tốn sai biệt giữa điểm đặc trưng của một tín hiệu một tín hiệu khác.

2. Tồn cục: độ tính tốn sai biệt tổng giữa một tín hiệu tổng với một tín hiệu khác cĩ thể cĩ sai biệt.

Việc phân tích điểm đặc trưng bao gồm việc tính tốn vector đặc trưng với khoảng thời gian thơng thường. Đối với việc phân tích dựđốn tuyến tính, vector đặc trung bao gồm việc tính tốn các hệ số dựđốn (hoặc các phép biến đổi giữa chúng). Một loại vector đặc trưng thơngdụng dùng trong nhận dạng tiếng nĩi là Mel Frequency Cepstral Coefficients (MFCCs).

Vì các vector đặc trưng cĩ thể cĩ nhiều phần tử phức tạp, nên giá trị trung bình của việc tính tốn cần được thiết lập. Phép đo sai biệt giữa 2 vector đặc trưng được tính tốn bằng đơn vị theo hệ Euclidean. Như vậy độ sai biệt cục bộ giữa vector đặc trưng x của tín hiệu 1 và vector đặc trưng y của tín hiệu 2 được cho bởi ( ) ( )2 , = ∑ − i i i y x y x d (1.68)

Mặc dù sử dụng hệđơn vị Euclidean cho việc tính tốn sẽ tăng độ phức tạp hơn so với các hệđo lường khác, nhưng nĩ lại cho tác dụng nhiều hơn với độ sai biệt lớn đối với một đặc trưng đơn. Nếu như việc quay lui trong quá trình tìm kiếm sự tương thích nhất cần thiết thì một dãy cĩ nhiệm vụ lưu trữ các entry trước đĩ trong quá trình xử lý tìm kiếm, được gọi là backtrace array.

Một phần của tài liệu Xử lý âm thanh và hình ảnh (Trang 50)

Tải bản đầy đủ (PDF)

(175 trang)